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e 腾讯 资深 Linux 内 核 专家 10 余 年 工作 经 验 结晶 ， 业 界 多 位 专家 联 祷 
推荐 ，Linux 内 核 工程 师 和 驱动 开发 工程 师 的 必 读 之 作 

。 从 工业 需求 角度 另辟蹊径 ， 注 重 效率 和 实用 性 ， 将 Linux 内 核 分 为 
基础 部 分 和 应 用 部 分 以 及 内 核 架 构 和 内 核实 现 两 个 维度 ， 对 Linux 
内 核 的 文件 系统 、 设 备 驱动 的 架构 设计 与 实现 原理 进行 了 深入 分 析 








剑 林 是 一 位 资深 的 Linux 内 核 专家 ， 对 Linux 内 核 的 机 制 有 很 深入 的 了 解 。 本 书 是 他 10 余 年 工 
程 经 验 的 结晶 ， 以 一 个 技术 开发 人 员 的 视角 ， 由 浅 入 深 ,诠释 了 内 核 的 文件 系统 和 设备 驱动 的 内 部 
机 制 。 不 管 是 对 内 核 感 兴趣 的 初学 者 ， 还 是 内 核 研发 人 员 ， 都 可 以 从 本 书 中 获 益 菲 浅 ! 

一 一 王 营 “百度 高 级 研发 工程 师 


本 书 由 国内 著名 互联 网 企业 的 一 线 架构 师 撰写 作者 在 工作 中 能 够 快速 地 制定 出 系统 方案 ,与 
作者 对 操作 系统 内 核 的 深入 理解 密 不 可 分 。 本 书 基础 层 和 应 用 层 的 划分 颜 具 新 意 ， 能 很 好 地 帮助 读 
者 理 清 Linux 内 核 的 脉络 ， 希 望 有 更 多 人 学 习 和 研究 系统 内 核 提升 国内 企业 的 核心 能 力 . 

一 一 谢 室友” 中兴 通讯 操作 系统 平台 部 技术 总 工程 师 


作为 长 期 从 事 内 核 和 分 布 式 文件 系统 开发 的 技术 人 员 ， 我 很 高 兴 看 到 我 的 朋友 高 剑 林 出 版 这 本 

书 。 从 本 书 的 结构 和 内 容 来 看 ， 这 是 一 本 授 之 以 渔 的 书 。 虽 然 Linux 内 核 代码 庞杂 ,但 这 本 书 却 能 

为 读者 迅速 理 出 一 条 清晰 的 主线 ， 让 读者 感受 到 Linux 内 核 的 魅力 并 继续 深入 进去 。 非 常 值得 一 
读 , 推荐 ! 

一 一 许 家 强 IBM 高 级 工程 师 


Linux 的 内 核 也 是 Android 的 内 核 ， 理 解 Linux 内 核 是 Android 系 统 级 研发 人 员 的 必 备 技能 之 

一 。 相 对 于 传统 的 Linux 经 典 专著 ， 剑 林 这 本 书 更 多 地 从 实践 和 应 用 的 视角 分 析 了 内 核 的 架构 和 设 
计 ， 既 可 以 为 读者 展示 内 核 的 清晰 脉络 ， 又 不 至 于 让 读者 迷失 在 Linux 的 汪洋 大 海中 . 

一 一 杨 云 嘻 SONY 资 深 Android 系 统 专家 / 畅销 书 《Android 的 设计 与 实现 : 卷 !》 作 者 

和 剑 林 是 多 年 同事 ， 他 一 直 专注 于 内 核子 系统 各 个 层次 的 研究 ， 现 在 转 而 从 事 分 布 式 文件 系统 

的 研究 。 本 书 读 起 来 比 其 他 内 核 的 书籍 更 加 亲切 ， 充 分 体现 了 剑 林 深厚 的 工程 开发 能 力 ， 绝 对 是 操 

作 系统 入 门 必 不 可 少 的 首选 书 。 书 中 内 容 通 俗 易 懂 ， 入 门 门槛 低 . 
一 一 孙子 葡 肝 讯 高 级 工程 师 
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本 书 从 工业 需求 角度 出 发 ， 注 重 效率 和 实用 性 ， 是 帮助 内 核 研发 及 调试 、 驱 动 开发 等 领域 工程 师 正 
确认 识 并 高 效 利 用 Linux 内 核 的 难得 佳作 ! 作者 是 腾讯 公司 资深 的 Linux 内 核 专家 和 存储 系统 专家 ， 在 
该 领域 工作 和 研究 的 10 余年 间 ， 面 试 了 数 百 位 Linux 内 核 工程 师 ， 深 知 学 习 Linux 内 核 过 程 中 经 常 遇 到 
的 困惑 ， 以 及 在 工作 中 容易 犯 的 错误 。 基 于 这 些 原因 作者 撰写 了 本 书 。 本 书 出 发 点 和 写作 方式 可 谓 独 辟 
蹊 径 ， 将 Linux 内 核 分 为 两 个 维度 ， 一 是 基础 部 分 和 应 用 部 分 ， 二 是 内 核 架构 和 内 核实 现 ， 将 两 个 维 有 
机 统一 ， 深 入 分 析 了 Linux 内 核 的 文件 系统 、 设 备 驱动 的 架构 设计 与 实现 原理 。 

全 书 在 逻 四 上 分 为 三 部 分 : 第 一 部 分 (第 ! ~ 2 章 ) 首先 将 内 核 层 划分 为 基础 层 和 应 用 层 ， 讲 解 了 
基础 层 包 含 的 服务 和 数据 结构 ， 以 及 应 用 层 包 含 的 各 种 功能 ， 然 后 对 文件 系统 的 架构 进行 了 提纲 鬼 领 的 
介绍 ， 为 读者 学 习 后 面 的 知识 打下 基础 ;第 二 部 分 (第 3 ~ 9 章 ) 从 设备 到 总 线 到 驱动 ， 逐 步 深 入 ， 剖 
析 了 设备 的 总 体 架构 、 为 设备 服务 的 特殊 文件 系统 sysfs 、 字 符 设备 和 input 设备 、platform 总 线 、serio 
总 线 、PCI 总 线 、 块 设备 的 实现 原理 和 工作 机 制 ; 第 三 部 分 (第 10 ~ 13 章 ) 对 文件 系统 的 读 写 机 制 进行 
了 深入 分 析 ， 最 后 通过 一 个 真实 文件 系统 ext2， 复 习 本 书 所 有 知识 点 。 
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了 


前 


为 什么 要 写 这 本 书 

目前 市 面 上 关于 Linux 内 核 方面 的 书籍 可 以 分 为 两 类 ， 一 类 是 学 院 派 书籍 ， 其 中 比较 有 名 的 包 
括 《 深 入 理解 Linux 内 核 )ULK) 等 ; 一 类 特有 的 培训 教材 。 大 体 而 言 ， 学 院 派 的 书籍 体系 一 
般 很 完整 ， 在 广度 和 深度 上 都 有 完善 的 阐述 。 可 惜 也 正 因为 它 的 完整 、 复 杂 和 庞大 ， 使 得 阅读 学 院 派 
的 书籍 往往 是 个 艰巨 的 任务 。ULK 这 本 书 已 经 有 八 百 页 的 体 量 ， 还 有 很 多 细节 知识 没有 讲述 ， 而 早 
期 的 《内 核 情景 分 析 》 一 书 更 是 达到 上 千 页 的 体 量 。 以 至 于 业界 公认 内 核 的 学 习 曲 线 最 陡峭 ， 学 习 难 
度 最 大 。 

而 本 书 是 从 工业 界 角 度 出 发 ， 为 工业 界 使 用 而 写 。 比 较 关注 计算 机 科学 方面 进展 的 工程 师 ， 应 
可 以 意识 到 计算 机 科学 和 计算 机 工业 是 两 个 不 同 的 领域 。 前 者 注重 创新 和 理论 完备 ， 后 者 注重 效率 和 
实用 。 从 效率 和 实用 的 角度 ， 需 要 在 降低 学 习 难度 的 基础 上 提供 相对 体系 化 的 结构 ， 这 就 必须 对 庞大 
复杂 的 内 核 进行 分 解 和 抽取 ， 这 也 正 是 本 书 试图 将 内 核 分 解 为 基础 层 和 应 用 层 的 原因 。 

这 些 年 来 ， 笔 者 先后 面试 过 上 百 位 内 核 工程 师 ， 组 织 过 多 次 讲座 或 者 交流 会 议 ， 和 国内 多 家 公 
司 的 一 流 工程 师 有 过 深入 交流 。 总 体 而 言 ， 国 内 内 核 应 用 和 开发 的 水 平 处 于 非常 低 的 水 平 ， 这 一 方 
面 表现 在 理解 内 核 的 技术 人 员 在 国内 总 体 上 不 多 ,即使 是 专业 的 内 核 的 工程 师 ， 对 内 核 的 一 些 基 本 
间 题 理解 不 清 甚至 理解 错误 的 也 不 在 少数 ; 另 一 方面 是 大 多 数 人 认为 内 核 在 工作 中 用 处 不 大 ， 很 难 
发 挥 价 值 。 

针对 第 一 个 同 题 ， 笔 者 做 过 调查 问卷 ， 通 过 调查 发 现 ， 公 认 学 习 内 核 最 大 的 问题 就 是 内 核 代码 
的 难 懂 和 跳跃 。 从 一 个 函数 跳 到 另 一 个 函数 ， 然 后 又 跳 到 下 一 个 函数 ， 对 执行 的 逻辑 难以 理解 。 跳 跃 
超过 三 次 ， 基 本 就 难以 继续 ， 只 能 放弃 。 第 二 个 问题 和 第 一 个 问题 强 相 关 。 因 为 了 解 不 够 系统 ， 很 难 
形成 整体 的 内 核 执行 逻辑 。 而 实际 工作 中 碰 到 的 问题 总 是 干 变 万 化 ， 个 人 了 解 的 一 块 未 必 能 碰 到 。 比 
如 一 个 文件 系统 只 读 问题 ， 是 内 核 VFS 层 的 问题 ? 是 文件 系统 自身 ? 还 是 块 设备 或 者 硬盘 的 问题 ? 
如 果 不 能 形成 清晰 的 视图 ， 就 很 难 有 针对 性 的 调试 和 改进 。 





按照 方法 论 的 观点 ， 通 常人 类 的 学 习 过 程 是 从 易 到 难 、 从 部 分 到 整体 、 从 已 知 到 未 知 。 而 对 内 
核 的 学 习 有 其 特殊 之 处 。 内 核 几乎 是 九 十 度 的 学 习 曲 线 ， 极 难 找到 人 门 的 路 径 ， 更 别 说 快速 流畅 地 阅 
读 内 核 代码 了 。 从 那 时 起 ， 笔 者 开始 对 内 核 进行 整理 ， 希 望 能 找到 一 条 学 习 的 路 径 ， 在 不 断 探索 过 程 
中 , 逐渐 形成 一 份 文档 ， 然 后 通过 一 些 培训 活动 验证 了 其 有 效 ， 最 终 形成 了 本 书 。 

本 书 可 以 归纳 为 两 个 思路 。 一 个 是 对 内 核 代码 的 分 类 。 笔 者 把 内 核 分 为 基础 部 分 和 应 用 部 分 。 内 
核 中 的 内 存 管理 、 任 务 调度 和 中 断 异 常 处 理 归 为 基础 部 分 。 而 文件 系统 、 设 备 管理 和 驱动 归 为 应 用 部 
分 。 打 开 一 份 完整 的 内 核 代 码 统计 一 下 ， 应 用 部 分 占 了 绝 大 多 数 ， 庞 大 复杂 ， 但 元 余 很 多 ， 很 多 代码 
具有 相似 性 ; 而 基础 部 分 则 是 短小 精 悍 。 应 用 部 分 经 常 要 调用 基础 部 分 提供 的 内 存 管理 、 任 务 调度 等 
服务 。 为 了 快速 理解 基础 部 分 ， 首 先 要 整理 基础 部 分 的 服务 ， 理 解 在 内 核 中 如 何 使 用 基础 部 分 的 服务 

第 二 个 思路 是 把 内 核 分 为 内 核 架 构 和 内 核实 现 。 内 核 架构 是 内 核 中 通用 的 、 具 普遍 性 的 层次 
比如 块 设备 、 字 符 设备 、 总 线 、 文 件 系统 的 VFS 层 等 。 理 解 了 内 核 架构 ， 就 对 内 核 有 了 整体 上 的 掌 
握 ， 就 能 了 解 内 核 设 计 者 的 思路 ， 进 而 快速 流畅 地 阅读 内 核 代 码 。 但 即使 理解 了 内 核 架 构 ， 也 还 有 
很 多 具体 问题 要 攻克 。 比 如 驱动 中 一 个 寄存 器 的 使 用 、 设 备 链 路 状态 如 何 检测 、 文 件 系统 如 何 使 用 
barrier IO 、 同 步 和 异步 1O 的 区 别 等 。 这 是 需要 开发 人 员 仔细 研读 和 琢磨 的 。 本 书 试图 归纳 整理 出 
内 核 的 常用 架构 层 ， 这 些 架构 层 具有 举一反三 的 作用 ， 它 们 构成 了 Linux 内 核 的 骨架 。 

发 展 到 今天 ， 内 核 已 经 非常 庞大 和 复杂 。 本 书 希 望 通过 一 些 架构 层次 代码 的 分 析 ， 结 合 简单 的 
例子 ， 帮助 读者 理解 内 核 的 整体 框架 。 当 碰 到 内 核 问 题 或 者 需要 加 入 某 些 内 核 功能 或 者 修改 某 些 实现 
时 ， 可 以 迅速 流畅 地 阅读 相关 代码 ， 确 定 自己 的 方案 ， 而 不 至 于 茫然 无 措 。 而 对 于 细节 的 实现 ， 则 需 
要 程序 员 根 据 自己 的 需求 来 设计 。 

关于 内 核 版 本 ， 本 书 用 的 是 2.6.18 版 。 内 核 有 一 套 自己 的 不 兼容 策略 ， 不 同 内 核 版 本 之 间 经 党 
不 能 编译 ， 至 于 函数 消失 和 数据 结构 修改 更 是 家 常 便 饭 。 所 以 我 们 只 能 选择 一 个 版 本 作为 基础 。 

阅读 内 核 代 码 前 的 准备 : 下 载 一 份 完 整 的 内 核 ，Linux 内 核 的 官方 网 站 是 http://www.kernel.org， 
这 里 可 以 下 载 到 各 个 版 本 的 内 核 ， 再 准备 一 个 好 的 代码 阅读 软件 ， 因 为 内 核 代码 经 常 要 前 后 关联 阅 
读 ， 所 以 需要 具有 代码 工程 管理 的 软件 ， 强 烈 推 荐 source insight， 这 是 国内 应 用 很 广 的 一 个 软件 。 

另外 ， 本 书 已 经 假设 读者 能 编译 和 安装 模块 ， 并 且 具 有 计算 机 基本 结构 的 知识 。 此 外 ， 有 一 合 
已 安装 了 Linux 系统 的 计算 机 或 者 虚拟 机 ， 并 且 经 常 实战 练习 。 

由 于 笔者 水 平 有 限 ， 而 且 从 架构 层次 分 析 内 核 代码 ， 可 用 来 参考 的 资料 很 少 ， 希 望 广大 读者 能 
多 提 意 见 ， 共 同 推进 中 国 的 技术 水 平 。 

任何 书籍 都 不 能 替代 读者 自己 对 内 核实 际 代码 的 研究 和 学 习 。 但 如 果 没 有 书籍 ， 浩 如 云烟 的 内 
核 代码 让 有 志学 习 者 茫然 ， 而 低 效率 地 一 点 点 哨 代码 也 会 浪费 大 量 的 时 间 。 书 籍 的 作用 是 带领 读者 人 
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第 1 章 
内 核 的 基础 层 和 应 用 层 


前 言 中 提 到 ， 内 核 分 为 内 核 基础 层 和 内 核 应 用 层 。 这 既 有 对 整个 操作 系统 软件 架构 的 分 
析 和 理解 ， 也 有 现实 应 用 情况 的 支持 。 

操作 系统 对 应 用 软件 提供 了 统一 的 编程 接口 ， 操 作 系统 的 系统 调用 是 稳定 的 、 向 下 兼容 
的 ， 但 是 在 内 核 中 ， 并 不 提供 这 种 稳定 且 兼 容 的 保证 。 实 际 上 ， 同 样 的 代码 在 不 同 的 内 核 
版 本 经 常 可 能 编译 失败 。 内 核 的 这 种 开发 模式 ， 造 成 了 学 习 内 核 时 版 本 众多 而 且 不 稳定 的 特 
点 ， 也 大 大 增加 了 学 习 的 困难 。 

在 长 期 对 内 核 代码 的 分 析 和 应 用 中 ， 笔 者 注意 到 一 个 事实 : 内 核 中 提供 了 大 量 的 软件 基 
础 设施 。 这 些 基础 设施 既 包 括 内 核 中 对 内 存 的 使 用 ， 对 进程 调度 的 控制 ， 也 包括 自 旋 锁 、 信 
号 量 等 内 核 提供 的 同步 函数 ， 同 时 还 包括 内 核 提供 的 数据 结构 ， 比 如 链表 、hash 链表 、 红 黑 
树 等 。 这 些 软件 基础 设施 如 同 操作 系统 提供 的 系统 调用 一 样 ， 是 理解 内 核 代 码 和 编写 内 核 代 
码 的 基础 。 而 这 些 软件 基础 设施 在 各 个 内 核 版 本 中 基本 是 稳定 的 。 

现实 情况 提供 了 另 一 方面 的 支持 。 学 习 的 动力 来 自 于 应 用 ， 传 统 的 操作 系统 教科 书 全 
面 ， 但 也 很 少 有 人 能 完全 读 懂 并 且 结合 代码 进行 实战 应 用 。 大 多 数 程序 员 在 工作 中 应 用 到 内 
核 的 部 分 ， 绝 大 多 数 是 设备 驱动 ， 而 讲 操作 系统 的 书 多 数 不 会 关注 到 设备 驱动 层面 。 除 了 设 
备 驱动 之 外 ， 内 核 中 文件 系统 也 有 较 多 的 应 用 。 

要 做 到 快速 流畅 地 阅读 内 核 代码 ， 前 提 是 了 解 内 核 中 的 软件 基础 设施 。 这 些 知 识 使 用 范 
围 很 广 ， 分 布 在 内 核 代码 的 各 个 部 分 ， 如 果 不 了 解 ， 在 内 核 代 码 的 理解 上 就 容易 出 现 障碍 


1.1 内 核 基础 层 提供 的 服务 


操作 系统 通常 提供 的 服务 是 内 存 管理 、 进 程 管理 、 设 备 管理 和 文件 系统 。 本 书 将 内 存 管 
理 、 进 程 管理 以 及 其 他 内 核 提供 的 基础 软件 设施 ， 比 如 工作 队列 、tasklet 以 及 信号 量 和 自 旋 
锁 都 作为 内 核 的 基础 层 。 本 书 并 不 分 析 和 探讨 这 些 基础 层 的 原理 和 实现 ， 本 章 只 介绍 如 何 使 
用 这 些 基础 软件 设施 。 


2 。 第 1 章 内 核 的 基础 层 和 应 用 层 


1.1.1 内 核 中 使 用 内 存 

简单 说 ， 内 核 提供 了 两 个 层次 的 内 存 分 配 接口 。 一 个 是 从 伙伴 系统 分 配 ， 另 一 个 是 从 
slab 系统 分 配 。 伙 伴 系统 是 最 底层 的 内 存 管理 机 制 ， 提 供 页 式 的 内 存 管理 ， 而 slab 是 伙伴 系 
统 之 上 的 内 存 管理 ， 提 供 基于 对 象 的 内 存 管理 。 

从 伙伴 系统 分 配 内 存 的 调用 是 alloc_pages， 注 意 此 时 得 到 的 是 页 面 地 址 ， 如 果 要 获得 能 
使 用 的 内 存 地址 ， 还 需要 用 page_address 调用 来 获得 内 存 地 址 。 

如 果 要 直接 获得 内 存 地 址 ， 需 要 使 用 _ get_free_pages。_get_free_pages 其 实 封装 了 
alloc_pages 和 page_address 两 个 函数 。 

alloc_pages 申请 的 内 存 是 以 页 为 单元 的 ， 最 少 要 一 个 页 。 如 果 只 是 申请 一 小 块 内 存 , 一 
个 页 就 浪费 了 ， 而 且 内 核 中 很 多 应 用 也 希望 一 种 对 象 化 的 内 存 管理 ， 希 望 内 存 管理 能 自动 地 
构造 和 析 构 对 象 ， 这 都 很 接近 面向 对 象 的 思路 了 ， 这 就 是 slab 内 存 管 理 。 

要 从 slab 申请 内 存 ， 需 要 创建 一 个 slab 对 象 ， 使 用 kmem_cache_create 创建 slab 对 象 。 
kmem_cache_create 可 以 提供 对 象 的 名 字 和 大 小 、 构 造 函 数 和 析 构 函数 等 ， 然 后 通过 kmem_ 
cache_alloc 和 kmem_cache_free 来 申请 和 释放 内 存 。 

内 核 中 常用 的 kmalloc 其 实 也 是 slab 提供 的 对 象 管理 ， 只 不 过 内 核 已 经 构建 了 一 些 固定 
大 小 的 对 象 ， 用 户 通过 kmalloc 申请 的 时 候 ， 就 使 用 了 这 些 对 象 。 

一 个 内 核 中 创建 slab 对 象 的 例子 如 代码 清单 1-1 所 示 。 


代码 清单 1-1 创建 slab 对 象 


bh_cachep = kmem_cache_create("buffer_head", 
sizeof (struct buffer head), 0, 
(SLAB _ RECLAIM ACCOUNT|SLAB PANIC|SLAB MEM SPREAD), 
init_buffer_head, 
NULL); 





创建 一 个 slab 对 象 时 指定 了 slab 对 象 的 大 小 ， 用 以 下 代码 申请 一 个 slab 对 象 : 

struct buffer_head *ret = kmem_cache_alloc(bh_cachep，gfp_flags); 

内 核 中 还 有 一 个 内 存 分 配 调 用 : vmalloc。vmalloc 的 作用 是 把 物理 地 址 不 连续 的 内 存 页 
面 拼凑 为 多 辑 地 址 连续 的 内 存 区 间 。 

理解 了 以 上 几 个 函数 调用 之 后 ， 阅 读 内核 代 码 的 时 候 就 可 以 清晰 内 核 中 对 内 存 的 使 用 
方式 。 


1.1.2 内 核 中 的 任务 调度 
内 核 中 经 常 需要 进行 进程 的 调度 。 首 先 看 一 个 例子 ， 如 代码 清单 1-2 所 示 。 
代码 清单 1-2 使 用 wait 的 任务 调度 


#define wait event (wgq, condition) 
do 1 
if (condition) 
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break; 
_wait_event (wq, condition); 
} while (0) 


#define _ wait_event (wq, condition) 
do { 
DEFINE WAIT(_ wait); 


for (27) 1 
prepare_to_wait(éwq, & wait, TASK_UNINTERRUPTIBLE); 
if (condition) 

break; 

schedule() 7 

} 

finish wait (&wq, & wait); 

} while (0) 





上 文 定义 了 一 个 wait 结构 ， 然 后 设置 进程 睡眠 。 如 果 有 其 他 进程 唤醒 这 个 进程 后 ， 判 断 
条 件 是 否 满足 ， 如 果 满 足 ， 删 除 wait 对 象 ， 否 则 进程 继续 睡眠 。 
这 是 一 个 很 常见 的 例子 ， 使 用 wait_event 实现 进程 调度 的 实例 在 内 核 中 很 多 ， 而 且 内 核 
中 还 实现 了 一 系列 函数 ， 简 单 介绍 如 下 。 
口 wait_event_timeout : 和 wait_event 的 区 别 是 有 时 间 限 制 ， 如 果 条 件 满足 ， 进 程 恢复 运 
行 ,或 者 时 间 到 达 ， 进 程 同样 恢复 运行 。 
口 wait_event_interruptible : 和 wait_event 类 似 ， 不 同 之 处 是 进程 处 于 可 中 断 的 睡眠 。 而 
wait_event 设置 进程 处 于 不 可 中 断 的 睡眠 。 两 者 区 别 何在 ?可 中 断 的 睡眠 进程 可 以 接 
收 到 信号 ， 而 不 可 中 断 的 睡眠 进程 不 能 接收 信和 号。 
口 wait_event_interruptible_timeout ， 和 wait_event_interruptible 相 比 ， 多 个 时 间 限 制 。 在 
规定 的 时 间 到 达 后 ， 进 程 恢 复 运行 
口 wait_event_interruptible_exclusive: 和 wait_event_interruptible 区 别 是 排他 性 的 等 待 。 





人 
S) 注意 
何谓 排他 性 的 等 待 ? 有 一 些 进程 都 在 等 待 队 列 中 ， 当 唤醒 的 时 候 ， 内 核 是 唤醒 所 有 的 进 


程 。 如 果 进 程 设 置 了 排他 性 等 待 的 标志 ， 唤 醒 所 有 非 排 他 性 的 进程 和 一 个 排他 性 进程 。 


1.1.3 软 中 断 和 tasklet 


Linux 内 核 把 对 应 中 断 的 软件 执行 代码 分 拆 成 两 部 分 。 一 部 分 代码 和 硬件 关系 紧密 ， 这 
部 分 代码 必须 关闭 中 断 来 执行 ， 以 免 被 后 面 触发 的 中 断 打 断 ， 影 响 代码 的 正确 执行 ， 这 部 分 
代码 放 在 中 断 上 下 文中 执行 。 另 一 部 分 代码 和 硬件 关系 不 紧密 ， 可 以 打开 中 断 执行 ， 这 部 分 
代码 放 在 软 中 断 上 下 文 执行 。 

需要 指出 的 是 ， 这 种 划分 是 一 种 粗略 、 大 概 的 划分 。 中 断 是 计算 机 系统 的 宝贵 资源 ， 关 
闭 中 断 意味 着 系统 不 响应 中 断 ， 这 常常 是 代价 高 昂 的 。 所 以 为 了 避免 关闭 中 断 的 不 利 影响 ， 
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即使 在 中 断 上 下 文中 ,也 有 很 多 代码 的 执行 是 打开 中 断 的 。 而 在 软 中 断 上 下 文 ， 甚 至 进程 上 
下 文 的 内 核 代 码 中 ， 有 的 时 候 也 是 需要 关闭 中 断 的 。 哪 些 地 方 需要 关闭 中 断 ， 而 哪些 地 方 又 
可 以 打开 中 断 ， 需 要 仔细 地 考虑 ， 既 要 尽 可 能 打开 中 断 以 防止 关闭 中 断 的 不 利 影响 ， 又 要 在 
需要 的 时 候 关闭 中 断 以 避免 出 现 错误 。 

Linux 内 核定 义 了 几 个 默认 的 软 中 断 ， 网 络 设备 有 自己 的 发 送 和 接收 软 中 断 ， 块 设备 也 有 
自己 的 软 中 断 。 为 了 方便 使 用 ， 内 核 还 定义 了 一 个 tasklet 软 中 断 。tasklet 是 一 种 特殊 的 软 中 断 ， 
同一 时 刻 一 个 tasklet 只 能 有 一 个 CPU 执行 ， 不 同 的 tasklet 可 以 在 不 同 的 CPU 上 执行 。 这 和 软 
中 断 不 同 ， 软 中 断 同一 时 刻 可 以 在 不 同 的 CPU 并 行 执行 ， 因 此 软 中 断 必须 考虑 重 和 的 问题 。 

内 核 中 很 多 地 方 使 用 了 tasklet。 分 析 一 个 例子 ， 代 码 如 下 所 示 : 


DECLARE_TASKLET_DISABLED(hil mles tasklet, hil mlcs_process, 0); 
tasklet_schedule (shil_mlcs_tasklet); 


上 面 的 例子 首先 定义 了 一 个 tasklet， 它 的 执行 函数 是 hil_mlcs_process。 当 程序 中 调用 
tasklet_schedule， 会 把 要 执行 的 结构 插入 到 一 个 tasklet 链表 ， 然 后 触发 一 个 tasklet 软 中 断 。 
每 个 CPU 都 有 自己 的 tasklet 链表 ， 内 核 会 根据 情况 确定 在 何 时 执行 tasklet。 

可 以 看 到 ，tasklet 使 用 起 来 很 简单 ， 本 节 只 需要 了 解 在 内 核 如 何 使 用 即 可 。 


1.1.4 工作 队列 
工作 队列 和 tasklet 相似 ， 都 是 一 种 延缓 执行 的 机 制 。 不 同 之 处 是 工作 队列 有 自己 的 进程 
上 下 文 ， 所 以 工作 队列 可 以 睡眠 ， 也 可 以 被 调度 ， 而 tasklet 不 可 睡眠 。 代 码 清单 1-3 是 工作 
队列 的 例子 。 
代码 清单 1-3 工作 队列 


INIT_WORK (sioc->sas_persist_task, 
mptsas_persist_clear_ table, 
(void *)ioc); 

schedule work(sioc->sas persist task); 








使 用 工作 队列 很 简单 ，schedule_work 把 用 户 定义 的 work_struct 加 入 系统 的 队列 中 ， 并 
唤醒 系统 线程 去 执行 。 那 么 是 哪个 系统 线程 执行 用 户 的 work_struct 呢 ? 实际 上 ， 内 核 初 始 化 
的 时 候 ， 就 要 创建 一 个 工作 队列 keventd_wq， 同 时 为 这 个 工作 队列 创建 内 核 线 程 (默认 是 为 
每 个 CPU 创建 一 个 内 核 线程 )。 

内 核 同时 还 提供 了 create_workqueue 和 create_singlethread_workqueue 函数 ， 这 样 用 户 可 
以 创建 自己 的 工作 队列 和 执行 线程 ， 而 不 用 内 核 提供 的 工作 队列 。 看 内 核 的 例子 : 


kblockd workqueue = create workqueue ("kblockd"); 

int kblockd_schedule_work(struct work_struct *work){ 
return queue work(kblockd workqueue, work); 

} 


kblockd_workqueue 是 内 核 通用 块 层 提供 的 工作 队列 ， 需 要 由 kblockd_workqueue 执 
行 的 工作 就 要 调用 kblockd_schedule_ work， 其 实 就 是 调用 queue_work 把 work 插 入 到 
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kblockd_workqueued 的 任务 链表 。 
create_singlethread_workqueue 和 create_workqueue 类 似 ， 不 同 之 处 是 ， 像 名 字 揭 示 的 一 
样 ，create_singlethread_workqueue 只 创建 一 个 内 核 线程 ， 而 不 是 为 每 个 CPU 创建 一 个 内 核 


线程 。 


1.1.5 自 旋 锁 

自 旋 锁 用 来 在 多 处 理 器 的 环境 下 保护 数据 。 如 果 内 核发 现 数据 未 锁 ， 就 获取 锁 并 运行 ; 
如 果 数 据 被 锁 ， 就 一 直 旋转 (其 实 是 一 直 反复 执 行 一 条 指令 )。 之 所 以 说 自 旋 锁 用 在 多 处 理 器 
环境 ， 是 因为 在 单 处 理 器 环境 ( 非 抢占 式 内 核 ) 下 ， 自 旅 锁 其 实 不 起 作用 。 在 单 处 理 器 抢占 
式 内 核 的 情况 下 ， 自 旋 锁 起 到 禁止 抢占 的 作用 。 

因为 被 自 旋 锁 锁 着 的 进程 一 直 旋 转 ， 而 不 是 睡眠 ， 所 以 自 旋 锁 可 以 用 在 中 断 等 禁止 睡眠 
的 场景 。 自 旋 锁 的 使 用 很 简单 ， 请 参考 下 面 的 代码 例子 。 


spin_lock (shost->host_lock); 
shost->host_busy++; 
spin_unlock (shost->host_lock); 


1.1.6 内核 信号 量 
内 核 信号 量 和 自 旋 锁 类 似 ， 作 用 也 是 保护 数据 。 不 同 之 处 是 ， 进 程 获取 内 核 信号 量 的 时 
候 ， 如 果 不 能 获取 ， 则 进程 进入 睡眠 状态 。 参 考 代码 如 下 


down (Sdev->sem); 
up (dev->sem); 


内 核 信号 量 和 自 旋 锁 很 容易 混淆 ， 所 以 列 出 两 者 的 不 同 之 处 。 

口内 核 信 号 量 不 能 用 在 中 断 处 理 函数 和 tasklet 等 不 可 睡眠 的 场景 。 

口 深层 次 的 原因 是 Linux 内 核 以 进程 为 单位 调度 ， 如 果 在 中 断 上 下 文 睡眠 ， 中 断 将 不 能 
被 正确 处 理 。 

口 可 睡眠 的 场景 既 可 使 用 内 核 信号 量 ， 也 可 使 用 自 旋 锁 。 自 旋 锁 通常 用 在 轻 量 级 的 锁 场 
景 。 即 锁 的 时 间 很 短 ， 马 上 就 释放 锁 的 场景 。 


1.1.7 原子 变量 
原子 变量 提供 了 一 种 原子 的 、 不 可 中 断 的 操作 。 如 下 所 示 : 
atomic 上 mapped; 


内 核 提供 了 一 系列 的 原子 变量 操作 函数 ， 如 下 所 示 。 
口 atomic_add: 加 一 个 整数 到 原子 变量 。 
Oatomic_sub: 从 原子 变量 减 一 个 整数 。 

口 atomic_set: 设置 原子 变量 的 数值 。 
Datomic_read: 读 原 子 变量 的 数值 - 
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1.2 内 核 基础 层 的 数据 结构 
内 核 使 用 的 数据 结构 有 双向 链表 、hash 链表 和 单 向 链表 ， 另 外 ， 红 黑 树 和 基 树 (radix 树 ) 
也 是 内 核 使 用 的 数据 结构 。 实 际 上 ， 这 也 是 程序 代码 中 通常 使 用 的 数据 结构 。 
container 是 Linux 中 很 重要 的 一 个 概念 使 用 container 能 实现 对 象 的 封装 。 代 码 如 下 所 示 : 


#define container_of (Ptr，type，member) ({ 
const typeof( ((type *)0)->member ) * mptr = (ptr); 
(type *)( (char *)_mptr - offsetof (type,member) );}) 


这 个 方法 巧妙 地 实现 了 通过 结构 的 一 个 成 员 找到 整个 结构 的 地 址 。 内 核 中 大 量 使 用 了 这 
个 方法 。 


1.2.1 双向 链表 
list 是 双向 链表 的 一 个 抽象 ， 它 定义 在 /include/linux 目录 下 。 首 先 看 看 list 的 结构 定义 ; 
struct list head { 


struct list head *next, *prev; 
有 


list 库 提 供 的 list_entry 使 用 了 container， 通 过 container 可 以 从 list 找到 整个 数据 对 象 ， 
这 样 list 就 成 为 了 一 种 通用 的 数据 结构 : 


4#define list_entry(ptr, type, member) 
container_of (ptr, type, member) 


内 核定 义 了 很 多 对 list 结构 操作 的 内 联 函 数 和 宏 。 

口 LIST_HEAD: 定义 并 初始 化 一 个 list 链表 。 

口 list_add_tail: 加 一 个 成 员 到 链表 尾 。 

Dlist_del: 删除 一 个 list 成员。 

Dlist empty: 检查 链表 是 否 为 空 。 

口 list_for_each: 遍历 链表 。 

口 list_for_each_safe: 遍历 链表 ， 和 list_for_each 的 区 别 是 可 以 删除 遍历 的 成 员 。 
DOlist_for_each_entry: 遍历 链表 ， 通 过 container 方法 返回 结构 指针 。 


1.2.2 hash 链表 
hash 链表 和 双向 链表 list 很 相似 ， 它 适用 于 hash 表 。 看 一 下 hash 链表 的 头 部 定义 : 


struct hlist_head { 
struct hlist_node *first; 
bs 


和 通常 的 list 比较 ，hlist 只 有 一 个 指针 ， 这 样 就 节省 了 一 个 指针 的 内 存 。 如 果 hash 表 非 
常 庞大 ， 每 个 hash 表 头 节省 一 个 指针 ， 整 个 hash 表 节省 的 内 存 就 很 可 观 了 。 这 就 是 内 核 中 
专门 定义 hash list 的 原因 。 
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hash list 库 提供 的 函数 和 list 相似 ， 具 体 如 下 。 

OHLIST_HEAD: 定义 并 初始 化 一 个 hash list 链表 头 。 

口 hlist_add_head: 加 一 个 成 员 到 hash 链表 头 。 

口 hlist_del: 删除 一 个 hash 链表 成 员 。 

口 hlist_empty: 检查 hash 链表 是 否 为 空 。 

口 hlist_for_each: 遍历 hash 链表 。 

口 hlist_for_cach_safe: 遍历 hash 链表 ， 和 hlist_for_each 的 区 别 是 可 以 删除 遍历 的 成 员 。 
口 hlist_for_each_entry: 遍历 hash 链表 ， 通 过 container 方法 返回 结构 指针 。 


1.2.3 单 向 链表 


内 核 中 没有 提供 单 向 链表 的 定义 。 但 实际 上 ， 有 多 个 地 方 使 用 了 单 向 链表 的 概念 ， 看 代 
码 清单 1-4 的 例子 


代码 清单 1-4 单 向 链表 


for (i = 0, Pp -=n; i <n; itt, ptt, index++) { 
struct probe **s = 5domain->probes[index % 255]; 
while (*s 566 (*3)->range < range) 
s = &(*s)->next; 
P->next = *s; 
*s=p; 





} 





上 面 的 例子 是 字符 设备 的 map 表 ，probe 结构 其 实 就 是 单 向 链表 。 这 种 结构 在 内 核 中 应 
用 很 广泛 。 


1.2.4 红 黑 树 


红 黑 树 是 一 种 自 平衡 的 二 又 树 ， 代 码 位 于 /lib/rbtree.c 文件 。 实 际 上 ， 红 黑 树 可 以 看 做 折 
半 查 找 。 我 们 知道 ， 排 序 的 快速 做 法 是 取 队 列 的 中 间 值 比较 ， 然 后 在 剩 下 的 队列 中 再 次 取 中 
间 值 比较 ， 和 迭代 进行 ， 直 到 找到 最 合适 的 数据 。 红 黑 树 中 的 “ 红 黑 ”代表 什么 意思 呢 ? 红 黑 
的 颜色 处 理 是 避免 树 的 不 平衡 。 举 个 例子 ， 如 果 1、2、3、4、5 五 个 数字 依次 插入 一 颗 红 黑 
树 ， 那 么 五 个 值 都 落 在 树 的 右 侧 ， 如 果 再 将 6 插入 这 颗 红 黑 树 ， 要 比较 五 次 。 为 避免 这 种 情 
况 ,“ 红 黑 规则 ”就 要 将 树 旋转 ， 树 的 根部 要 落 在 3 这 个 节点 ， 这 样 就 避免 了 树 的 不 平衡 导 
致 的 问题 。 

内 核 中 的 IO 调度 算法 和 内 存 管理 中 都 使 用 了 红 黑 树 。 红 黑 树 也 有 很 多 介绍 的 文章 ， 读 
者 可 以 结合 代码 分 析 一 下 。 


1.2.5 radix 树 


内 核 提供 了 一 个 radix 树 库 ， 代 码 在 /lib/radix-tree.c 文件 。radix 树 是 一 种 空间 换 时 间 的 
数据 结构 ， 通 过 空间 的 宛 余 减 少 了 时 间 上 的 消耗 。radix 树 的 形象 图 如 图 1-1 所 示 。 
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日 日 口 日 NE 加 国力 


图 1-1 radix 树 的 形象 图 



































如 图 1-1 所 示 ， 元 素 空间 总 数 为 256， 但 元 素 个 数 不 固 定 。 如 果 用 数组 存储 ， 好 处 是 插 
入 查找 只 用 一 次 操作 ， 但 是 存储 空间 需要 256， 这 是 不 可 思议 的 。 如 果 用 链表 存储 ， 存 储 
空间 节省 了 ,但 是 极限 情况 下 查找 元 素 的 次 数 等 于 元 素 的 个 数 。 而 采用 一 颗 高 度 为 2 的 基 
树 ， 第 一 级 最 多 16 个 元 余 成 员 ， 代 表 元 素 前 四 位 的 索引 ,第 二 级 代表 元 素 后 四 位 的 索引 。 
只 要 两 级 查找 就 可 以 找到 特定 的 元 素 ， 而 且 只 有 少量 的 元 余数 据 。 图 中 假设 只 有 一 个 元 素 
10001000， 那么 只 有 树 的 第 一 级 有 元 素 ， 而 且 树 的 第 二 级 只 有 1000 这 个 节点 有 数据 ， 其 他 
节点 都 不 必 分 配 空间 。 这 样 既 可 以 快速 定位 查找 ， 也 减少 了 元 余数 据 。 

radix 树 很 适合 稀疏 的 数据 ， 内 核 中 文件 的 页 缓存 就 采用 了 radix 树 。 关 于 radix 树 的 文 
章 很 多 ， 读 者 可 以 结合 内 核 radix 树 的 实现 代码 分 析 一 下 。 


1.3 内 核 应 用 层 

内 核 应 用 层 是 建立 在 基础 层 之 上 的 功能 性 系统 。 在 本 书 中 ， 内 核 应 用 层 指 的 是 文件 系 
统 、 设 备 、 驱 动 以 及 网 络 。 内 核 代码 虽然 庞杂 ， 但 是 核心 的 基础 层 并 不 庞大 ， 主 要 是 应 用 层 
占据 了 大 部 分 代码 量 。 图 1-2 展示 了 内 核 各 部 分 的 代码 量 统计 数据 。 


Drvers 3,301,081 Sus 
Archaecures 1,258,638 197 
Filesystems S44a71 as 
Networing 376716 ss 
Sound 356,190 ss 
Indude 320,078 so 
Kernel 724503 12 
Memory mam 36,312 os 
Crvotoorapny 32.769 os 
Sea 25,303 oa 
orher T2780 1 











图 1-2 内 核 代码 的 统计 数据 
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从 图 1-2 可 以 计算 得 出 ， 驱 动 、 文 件 系统 和 网 络 占据 了 内 核 代码 的 绝 大 部 分 ， 而 代表 基 
础 层 的 kermel 和 内 存 管理 实际 上 只 有 很 少 的 代码 量 。Architectures 属于 内 核 的 基础 层 ， 它 是 
为 适 配 不 同 的 CPU 结构 提供 了 不 同 的 代码 ， 对 某 种 CPU 来 说 (如 读者 最 关注 的 x86CPU)， 
实际 的 代码 量 也 大 大 减少 了 。 


1.4 从 Linux 内 核 源码 结构 纵览 内 核 


本 节 通 过 Linux 内 核 源码 的 各 个 目录 来 分 析 内 核 代码 的 数量 和 阅读 难度 。 如 图 1-3 所 示 。 

从 图 1-3 可 以 发 现 ，Architectures 的 子 目录 是 各 个 CPU 架构 的 名 字 ， 为 各 种 不 同 的 CPU 
架构 服务 。 虽 然 总 体 量 很 大 ， 但 是 对 读者 关注 的 x86 或 者 ARM 来 说 ， 也 只 占 很 小 的 一 部 分 。 

图 1-4 展示 了 内 核 中 drivers 目录 的 分 类 。 

drivers 目录 分 类 为 各 种 不 同 的 设备 驱动 ， 而 设备 驱动 虽然 五 花 八 门 ， 但 是 它们 的 结构 是 
高 度 相似 的 ， 读 者 可 以 根据 工作 需要 阅读 分 析 驱 动 代码 。 在 理解 设备 驱动 架构 的 基础 上 ， 这 
个 工作 具有 高 度 重复 性 ， 可 以 在 短 时 间 内 掌握 驱动 的 精髓 。 

图 1-5 展示 了 内 核 中 企 目录 的 分 类 。fs 目录 分 类 为 各 种 不 同 的 文件 系统 。 
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图 1-3 内 核 中 Architectures 图 1-4 内 核 中 drivers 目录 图 1-5 内 核 中 仿 目 录 的 分 类 
目录 的 分 类 的 分 类 


Linux 为 文件 系统 统一 提供 了 一 个 VFS 架构 ， 各 种 文件 系统 都 要 按照 这 个 架构 来 设计 。 
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因此 ， 各 种 不 同 的 文件 系统 都 具有 重复 的 部 分 ， 读 者 不 需要 逐一 分 析 所 有 的 文件 系统 代码 ， 
只 选择 几 种 文件 系统 重点 阅读 即 可 。 


1.5 内 核 学 习 和 应 用 的 四 个 阶段 

如 何 深入 学 习 内 核 ? 或 者 更 进一步 ， 如 果 把 内 核 知识 应 用 到 具体 的 工作 中 ， 对 工作 产生 
价值 ? 

根据 所 有 内 核 核心 开发 人 员 的 观点 ， 阅 读 代码 、 理 解 代码 是 最 重要 的 步骤 。 对 于 操作 系 
统 这 种 庞大 复杂 的 基础 软件 来 说 ， 只 学 习 操作 系统 教程 之 类 的 书籍 ， 远 远 不 能 达到 理解 和 应 
用 的 目的 。 这 是 所 有 工程 实践 类 学 科 的 特点 ,“ 只 在 岸上 学 习 是 永远 不 可 能 掌握 游泳 技巧 的 ” 。 
所 以 必须 以 代码 为 依托 ， 以 代码 为 依 归 

其 次 ,是 如 何 选择 代码 的 问题 。 内 核 代码 非常 庞大 ， 如 何在 开始 阶段 选择 代码 ， 既 能 米 
盖 主 要 方面 ， 同 时 又 不 至 于 难度 太 高 ， 是 分 析 和 学 习 的 主要 问题 。 本 书 把 内 核 代码 分 为 了 基 
础 层 和 应 用 层 ， 对 基础 层 突出 内 核 API 的 概念 ， 在 应 用 层 的 分 析 中 ， 和 希望 通过 突出 重点 架构 
和 选择 典型 例子 来 加 深 理解 。 为 了 便于 阅读 ， 笔 者 将 简单 的 代码 注释 直接 加 在 代码 清单 里 
需要 重点 解释 的 部 分 ， 在 正文 加 以 说 明 。 

学 以 致 用 ， 任 何 学 习 的 坚实 基础 都 不 只 是 单纯 的 兴趣 ， 而 是 要 在 实践 中 得 到 检验 。 所 以 
检验 学 习 效果 ， 要 看 实际 的 应 用 ， 而 不 能 只 是 单方 面 地 阅读 分 析 代 码 。 实 际 的 应 用 和 学 习 过 
程 ， 笔 者 认为 ， 可 以 粗略 地 分 为 四 个 阶段 

(1 ) 起 步 阶段 

结合 中 国 当 前 的 应 用 现状 ， 起步 阶 段 基本 都 是 从 驱动 入 手 。 这 一 阶段 的 表现 是 ， 实 际 做 
过 几 个 驱动 ， 能 够 移植 驱动 到 不 同 的 系统 平台 ， 对 驱动 能 够 做 一 定 的 修改 ， 能 够 裁剪 内 核 ， 
以 适应 具体 的 需求 ;对 Linux 的 bootloader 能 够 根据 需求 做 修改 。 根 据 笔者 对 国内 现状 的 了 
解 和 调查 ， 大 多 数 国 内 的 内 核 应 用 停留 在 这 个 层面 ， 大 多 数 内 核 相关 的 工作 也 是 在 这 个 层面 
进行 。 

(2 ) 熟练 阶段 

对 内 核 的 一 个 或 者 几 个 部 分 比较 熟悉 ， 针 对 熟悉 部 分 ， 可 以 进行 深度 的 开发 应 用 。 比 如 
对 设备 驱动 相关 的 总 线 、 设 备 、 中 断 比较 熟悉 ， 并 且 可 以 做 深层 次 的 开发 。 这 一 阶段 的 特点 
是 对 内 核 的 理解 还 不 够 全 面 ， 需 要 时 间 积 累 增加 对 内 核 整体 的 把 握 。 

( 3 ) 高 级 阶段 

对 整个 内 核 的 重要 部 分 都 进行 了 比较 深入 的 分 析 。 这 一 阶段 的 特点 是 全 面 性 ， 即 使 要 学 
习 内 核 某 些 新 的 重要 特性 ， 也 能 在 短 时 间 内 迅速 掌握 重点 。 

(4 ) 终极 阶段 

此 阶段 是 Linux 内 核 组 维护 人 员 所 达到 的 水 准 ， 能 做 开创 性 的 工作 ， 具 有 重大 的 应 用 价 
值 。 处 于 这 个 阶段 的 主要 是 欧美 的 资深 开发 人 员 (或 者 说 是 内 核 hacker)， 国 内 达到 这 个 水 准 
的 技术 人 员 非 常 少 。 
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1.6 本 章 小 结 

内 核 基础 层 是 整个 内 核 学 习 的 基础 。 基 础 层 的 实现 部 分 是 比较 复杂 的 ， 尤 其 是 内 存 管理 
基础 层 和 进程 调度 基础 层 。 但 是 应 用 这 些 基础 层 并 不 复杂 ， 它 们 的 应 用 接口 API 也 比较 稳 
定 ， 在 各 个 内 核 版 本 中 没有 太 大 的 变化 ， 在 内 核 代码 中 经 常会 调用 这 些 基础 层 的 接口 API。 
读者 在 阅读 内 核 代码 的 时 候 ， 可 以 回顾 这 部 分 的 知识 ,增强 熟 练 运用 的 能 力 。 


第 2 章 
文件 系统 


本 章 从 文件 系统 开始 探索 整个 内 核 应 用 层 。 在 本 书 的 整个 体系 中 ， 文 件 系统 担当 着 最 重 
要 的 作用 ， 可 以 认为 ，Linux 内 核 的 应 用 层 就 是 以 文件 系统 为 核心 而 展开 的 。 

本 书 以 文件 系统 作为 整个 内 核 应 用 层 的 核心 ， 主 要 基于 下 列 理由 。 

口 文件 系统 本 身 具有 重大 作用 。 国 内 一 些 技术 公司 ， 已 经 开始 对 文件 系统 的 深度 研究 和 

应 用 。 这 其 中 ， 既 有 通信 公司 ， 也 有 传统 IT 公司 和 互联 网 公司 。 当 前 ， 分 布 式 文件 系 

统 的 广泛 应 用 让 文件 系统 成 为 当前 内 核 应 用 的 热门 。 

口 文件 系统 在 整个 内 核 架 构 中 具有 基础 架构 性 质 。 字 符 设 备 、 块 设备 这 些 设备 驱动 的 概 

念 都 要 依靠 文件 系统 来 实现 。 设 备 管理 的 基础 架构 也 要 依赖 文件 系统 ( sysfs)。 而 设备 

和 驱动 是 国内 当前 在 内 核 层 面 应 用 最 多 的 方面 ， 也 是 国内 程序 员 在 底层 开发 中 应 用 最 

多 的 方面 。 

前 言 讲 到 ， 书 籍 的 作用 只 是 带领 读者 入门 ， 带 领 入 门 的 关键 是 提供 一 条 学 习 分 析 的 快捷 
路 径 。 根 据 笔者 的 经 验 ， 从 架构 层面 分 析 内 核 ， 难 点 就 是 如 何 划 分 代码 的 层次 。 如 何 找到 一 
个 核心 点 ， 然 后 从 核心 点 扩展 ， 每 一 部 分 都 自 成 单元 ， 既 具有 普遍 性 ， 又 能 向 外 扩展 ， 是 本 
文 最 大 一 个 挑战 。 如 果 没 有 建立 层次 分 明 的 架构 体系 ， 内 核 代码 就 会 显得 庞大 混乱 ， 难 以 梳 
理 和 学 习 。 从 文件 系统 人 手 ， 掌 握 基本 概念 和 实现 架构 后 ， 可 以 从 文件 系统 引出 设备 文件 的 
概念 ， 设 备 文件 又 可 以 引申 到 字符 设备 和 块 设备 ， 这 样 就 从 文件 系统 过 渡 到 设备 管理 。 设 备 
管理 包含 了 设备 驱动 ， 设 备 驱动 要 用 到 中 断 ， 设 备 里 面 的 块 设备 又 控制 了 通用 块 层 和 IO 调 
度 。 而 文件 系统 向 外 引申 又 和 网 络 的 socket 联系 。 深 入 文件 系统 的 代码 ， 可 以 了 解 到 内 存 的 
页 面 管理 。 从 文件 系统 出 发 ， 层 次 推进 基本 讲 括 了 内 核 应 用 层 的 重要 概念 和 架构 。 这 是 作者 
总 结 的 一 种 学 习 体系 ， 希 望 通过 这 种 体系 串联 起 内 核 的 知识 点 。 





2.1 文件 系统 的 基本 概念 


在 深入 分 析 文 件 系统 之 前 ， 有 必要 介绍 文件 系统 的 几 个 基本 概念 ， 这 将 从 架构 层次 理 
解 文件 系统 设计 的 目的 ， 从 而 从 全 局 层面 理解 内 核 文 件 系统 的 代码 ， 大 大 减低 分 析 代 码 的 
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难度 和 工作 量 。 


2.1.1 什么 是 VFS 

Linux 内 核 通 过 虚拟 文件 系统 (Virtual File System，VFS) 管理 文件 系统 。 

VFS 是 Linux 内 核 文件 系统 的 一 个 极其 重要 的 基础 设施 ，VFS 为 所 有 的 文件 系统 提供 了 
统一 的 接口 ， 对 每 个 具体 文件 系统 的 访问 要 通过 VFS 定义 的 接口 来 实现 。 同 时 VFS 也 是 一 
个 极其 重要 的 架构 ， 所 有 Linux 的 文件 系统 必须 按照 VFS 定义 的 方式 来 实现 。 

VFS 本 身 只 存在 于 内 存 中 ， 它 需要 将 硬盘 上 的 文件 系统 抽象 到 内 存 中 ， 这 个 工作 是 通 
过 几 个 重要 的 结构 实现 的 。VFS 定义 了 几 个 重要 的 结构 : dentry 、inode、super_block， 通 
过 这 些 结构 将 一 个 真实 的 硬盘 文件 系统 抽象 到 了 内 存 ， 从 而 通过 管理 dentry 、inode 这 几 个 
对 象 就 可 以 完成 对 文件 系统 的 一 些 操作 (当然 ， 在 合适 的 时 候 ， 仍 然 需要 将 内 存 的 数据 写 
人 到 硬盘 )。 


2.1.2 超级 块 super_block 


超级 块 ( super_block) 代表 了 整个 文件 系统 本 身 。 通 常 ， 超 级 块 是 对 应 文件 系统 自身 的 
控制 块 结构 (可 参考 ext2 文件 系统 的 超级 块 结构 )。 超 级 块 保存 了 文件 系统 设 定 的 文件 块 大 
小 ， 超 级 块 的 操作 函数 ， 而 文件 系统 内 所 有 的 inode 也 都 要 链接 到 超级 块 的 链表 头 。 对 于 一 
个 具体 文件 系统 的 控制 块 可 能 还 含有 另外 的 信息 ， 而 通过 超级 块 对 象 ， 我 们 可 以 找到 这 些 必 
要 的 信息 。 

超级 块 的 内 容 需 要 读 取 具 体 文件 系统 在 硬盘 上 的 超级 块 结构 获得 ， 所 以 超级 块 是 具体 文 
件 系统 超级 块 的 内 存 抽象 。 超 级 块 对 象 整个 结构 很 庞大 复杂 ， 作 为 学 习 的 起 步 阶段 ， 没 必要 
探究 每 个 成 员 的 具体 意义 和 使 用 目的 (实际 上 ， 强 记 也 很 容易 忘记 )。 代 码 清单 2-1 是 超级 块 
对 象 简化 后 的 结构 定义 。 


代码 清单 2-1 超级 块 结构 简化 定义 





struct super block { 


unsigned long s_blocksize; 
unsigned char s_blocksize_bits; 

wi /* 省 略 超级 块 的 链表 、 设 备 号 等 代码 */ 

unsigned long long s_maxbytes; /* Max file size */ 


struct file_system type  *s_type; 
struct super operations *s_op; 


unsigned long s_magic; 
struct dentry *s_root; 

struct list head s_inodes; /* all inodes */ 
struct list_head s_dirty; /* dirty inodes */ 


struct block device *s_bdev; 
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void *s fs_info; /* Filesystem Private info */ 


}; 





从 两 个 方面 了 解 超级 块 结构 的 作用 。 

1 ) 超级 块 结构 给 出 了 文件 系统 的 全 局 信息 。 

口 s_blocksize 指定 了 文件 系统 的 块 大 小 。 

口 s_maxbytes 指定 文件 系统 中 最 大 文件 的 尺寸 。 

口 s_type 是 指向 file_system_type 结构 的 指针 。 

口 s_magic 是 魔术 数字 ， 每 个 文件 系统 都 有 一 个 魔术 数字 。 

口 s_root 是 指向 文件 系统 根 dentry 的 指针 。 

超级 块 对 象 还 定义 了 一 些 链表 头 ， 用 来 链接 文件 系统 内 的 重要 成 员 。 

口 s_inodes 指向 文件 系统 内 所 有 的 inode， 通 过 它 可 以 遍历 inode 对 象 。 

口 s_dirty 指向 所 有 dirty 的 inode 对 象 。 

口 s_bdev 指向 文件 系统 存在 的 块 设备 指针 。 

在 后 面具 体 文件 系统 的 例子 中 ， 可 以 看 到 这 些 成 员 是 如 何 赋值 和 应 用 的 。 

2 ) 超级 块 结构 包含 一 些 函数 指针 。 

super_operations 提供 了 最 重要 的 超级 块 操 作 。 例 如 super_operation 的 成 员 函 数 read_ 
inode 提供 了 读 取 inode 信息 的 功能 。 每 个 具体 的 文件 系统 一 般 都 要 提供 这 个 函数 来 实现 对 
inode 信息 的 读 取 ， 例 如 ext2 文件 系统 提供 的 具体 函数 是 ext2_read_inode。 从 这 个 例子 , 我 
们 可 以 理解 “VFS 提供 了 架构 ， 而 具体 文件 系统 必须 按照 VFS 的 架构 去 实现 ”的 含义 。 


2.1.3 目录 项 dentry 


对 于 一 个 通常 的 文件 系统 来 说 ， 文 件 和 目录 一 般 按 树 状 结构 保存 。 直 观 来 看 ， 目 录 里 保 
存 着 文件 ， 而 所 有 目录 一 层 层 汇聚 ， 最 终 到 达 根 目录 。 从 这 个 树 状 结构 ， 我 们 可 以 想象 VFS 
应 该 有 数据 结构 反映 这 种 树 状 的 结构 。 实 际 上 确实 如 此 ， 目 录 项 ( dentry) 就 是 反映 了 文件 系 
统 的 这 种 树 状 关系 。 

在 VFS 里 ， 目 录 本 身 也 是 一 个 文件 ， 只 是 有 点 特殊 。 每 个 文件 都 有 一 个 dentry (可 能 不 
止 一 个 )， 这 个 dentry 链接 到 上 级 目录 的 dentry。 根 目录 有 一 个 dentry 结构 ， 而 根 目录 里 的 文 
件 和 目录 都 链接 到 这 个 根 dentry， 二 级 目录 里 的 文件 和 目录 ， 同 样 通过 dentry 链接 到 二 级 目 
录 。 这 样 一 层 层 链接 ， 就 形成 了 一 颗 dentry 树 。 从 树 顶 可 以 遍历 整个 文件 系统 的 所 有 目录 和 
文件 。 

为 了 加 快 对 dentry 的 查找 ， 内 核 使 用 了 hash 表 来 缓存 dentry， 称 为 dentry cache。dentry 
cache 在 后 面 的 分 析 中 经 常用 到 ， 因 为 dentry 的 查找 一 般 都 先 在 dentry cache 里 进行 查找 。 

dentry 的 结构 定义 同样 很 庞杂 ， 和 超级 块 类 似 ， 我 们 当前 只 分 析 最 重要 的 部 分 。dentry 
结构 简化 后 的 定义 如 代码 清单 2-2 所 示 。 


代码 清单 2-2 dentry 结构 的 简化 定义 





struct dentry { 
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wee, / 省 略 dentry 锁 、 标 志 等 代码 / 

struct inode *d inode; /* Where the name belongs to - NULL is negative */ 
Ar 

* The next three fields are touched by _d lookup. 
* so they all fit in a cache line. 

sp 

struct hlist_node d_hash; 
struct dentry *d parent; 
struct qstr d_name; 


Place them here 


/* lookup hash list */ 
/* parent directory */ 


pa 
+ d_child and d_rcu can share memory 
*/ 
union { 
struct list head d child; /™ child of parent list */ 


struct rcu_head d_rcui 
) du; 
struct list_head d_subdirs; /* our children */ 


struct dentry operations *d_op; 
struct super block *d_sb; 

int d_mounted; 

}; 


对 dentry 结构 的 成 员 解释 如 下 。 

口 d_inode 指向 一 个 inode 结构 。 这 个 inode 和 dentry 共同 描述 了 一 个 普通 文件 或 者 目录 
文件 。 

口 dentry 结构 里 有 d_subdirs 成 员 和 d_child 成 员 。d_subdirs 是 子 项 ( 子 项 可 能 是 目录 ， 
也 可 能 是 文件 ) 的 链表 头 ， 所 有 的 子 项 都 要 链接 到 这 个 链表 。d_child 是 dentry 自身 
的 链表 头 ， 需 要 链接 到 父 dentry 的 d_subdirs 成 员 。 当 移动 文件 的 时 候 ， 需 要 把 一 个 
dentry 结构 从 旧 的 父 dentry 的 链表 上 脱离 ， 然 后 链接 到 新 的 父 dentry 的 d_subdirs 成 
员 。 这 样 dentry 结构 之 间 就 构成 了 一 颗 目录 树 

口 d_parent 是 指针 ， 指 向 父 dentry 结构 。 

口 d_hash 是 链接 到 dentry cache 的 hash 链表 。 

Od_name 成 员 保存 的 是 文件 或 者 目录 的 名 字 。 打 开 一 个 文件 的 时 候 ， 根 据 这 个 成 员 和 用 
户 输 入 的 名 字 比 较 来 搜寻 目标 文件 。 

口 d_mounted 用 来 指示 dentry 是 否 是 一 个 挂 载 点 。 如 果 是 挂 载 点 ， 该 成 员 不 为 零 。 


/* The root of the dentry tree */ 





2.1.4 索引 节点 inode 
inode 代表 一 个 文件 。inode 保存 了 文件 的 大 小 、 创 建 时 间 、 文 件 的 块 大 小 等 参数 ， 以 及 
对 文件 的 读 写 函数 、 文 件 的 读 写 缓存 等 信息 。 一 个 真实 的 文件 可 以 有 多 个 dentry， 因 为 指向 


文件 的 路 径 可 以 有 多 个 (考虑 文件 的 链接 )， 而 inode 只 有 一 个 。 
根据 上 面 的 描述 是 否 可 以 得 出 结论 ， 即 dentry 和 inode 代表 一 个 文件 ? 事实 基本 如 此 ， 
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inode 和 dentry 分 别 代表 了 文件 通用 的 两 个 部 分 ， 只 不 过 对 某 些 文件 系统 而 言 ，inode 提供 的 
信息 还 不 够 ， 还 需要 其 他 信息 。 这 个 将 在 后 面具 体 的 文件 系统 里 面 看 到 。 

inode 的 结构 定义 如 代码 清单 2-3 所 示 。 因 为 inode 的 定义 非常 庞大 ， 在 我 们 初次 认识 
inode 结构 的 时 候 ， 将 inode 结构 定义 大 大 简化 ， 以 重点 突出 几 个 结构 成 员 。 


代码 清单 2-3 inode 的 结构 定义 





struct inode { 
struct list head i_list; 


struct list head i_sb_list; 

struct list head i_dentry; 

unsigned long i_ino; 

atomic 上 i_count; 

loff t i_size; 

unsigned int i_blkbits; 

struct inode operations *i_op; 

const struct file_operations “i_fop;/* former ->i_op->default file ops */ 
struct address_space *i_mapping; 

struct block device “i_bdev; 


/省略 锁 等 代码 */ 





inode 结构 非常 复杂 ， 同 样 ， 我 们 只 分 析 其 中 最 重要 的 几 个 成 员 ， 以 简单 理解 inode 最 重 
要 的 作用 。 而 其 他 的 成 员 在 后 面 的 章节 中 继续 分 析 ， 逐 渐 丰 富 对 inode 的 理解 。 

口 成 员 i_list、i_sb_list、i_dentry 分 别 是 三 个 链表 头 。 成 员 i_list 用 于 链接 描述 inode 当前 
状态 的 链表 。 成 员 i_sb_list 用 于 链接 到 超级 块 中 的 inode 链表 。 当 创建 一 个 新 的 inode 
的 时 候 ， 成 员 i_list 要 链接 到 inode_in_use 这 个 链表 ， 表 示 inode 处 于 使 用 状态 ， 同 时 
成 员 i_sb_list 也 要 链接 到 文件 系统 超级 块 的 s_inodes 链表 头 。 由 于 一 个 文件 可 以 对 应 
多 个 dentry， 这 些 dentry 都 要 链接 到 成 员 i_dentry 这 个 链表 头 。 

口 成 员 i_ino 是 inode 的 号 ， 而 i_count 是 inode 的 引用 计数 。 成 员 i_size 是 以 字 节 为 单位 
的 文件 长 度 。 

口 成 员 i_blkbits 是 文件 块 的 位 数 。 

口 成 员 i_fop 是 一 个 stmuet file_operations 类 型 的 指针 。 文 件 的 读 写 函数 和 异步 io 函数 都 
在 这 个 结构 中 提供 。 每 一 个 具体 的 文件 系统 ， 基 本 都 要 提供 各 自 的 文件 操作 函数 。 

Qi_mapping 是 一 个 重要 的 成 员 。 这 个 结构 目的 是 缓存 文件 的 内 容 ， 对 文件 的 读 写 操作 
首先 要 在 i_mapping 包含 的 缓存 里 寻找 文件 的 内 容 。 如 果 有 缓存 ， 对 文件 的 读 就 可 以 
直接 从 缓存 中 获得 ， 而 不 用 再 去 物理 硬盘 读 取 ， 从 而 大 大 加 速 了 文件 的 读 操作 。 写 操 
作 也 要 首先 访问 缓存 ， 写 人 到 文件 的 缓存 。 然 后 等 待 合适 的 机 会 ， 再 从 缓存 写 人 硬盘。 
后 面 我 们 将 分 析 文件 的 具体 读 写 ， 在 此 处 只 需要 理解 基本 的 作用 即 可 。 

口 成 员 i_bdev 是 指向 块 设备 的 指针 。 这 个 块 设备 就 是 文件 所 在 的 文件 系统 所 绑 定 的 块 
设备 。 
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2.1.5 文件 
文件 对 象 的 作用 是 描述 进程 和 文件 交互 的 关系 。 这 里 需要 指出 的 是 ， 硬 盘 上 并 不 存在 一 
个 文件 结构 。 进 程 打开 一 个 文件 ， 内 核 就 动态 创建 一 个 文件 对 象 。 同 一 个 文件 ， 在 不 同 的 进 
程 中 有 不 同 的 文件 对 象 。 
文件 的 结构 定义 如 代码 清单 2-4 所 示 。 
代码 清单 2-4 文件 的 数据 结构 





struct file { 
struct dentry 
struct vfsmount 


*E_dentry7 
*E_vfsmnt7 


const struct file_operations *£_op; 
“nef* 省 略 部 分 代码 */ 
loff 七 £_pos; 


struct fown_struct £_owner; 
unsigned int £ uid, £ gid; 
struct file_ra_state f_ra; 


struct address_space *£_mapping; 
1 





口 f_dentry 和 f _vfsmnt 分 别 指向 文件 对 应 的 dentry 结构 和 文件 所 属于 的 文件 系统 的 
vfsmount 对 象 。 

口 成 员 f_pos 表示 进程 对 文件 操作 的 位 置 。 例 如 对 文件 读 取 前 10 字 节 ，f_pos 就 指示 第 
11 字 节 位 置 。 

Of uid 和 f_gid 分 别 表示 文件 的 用 户 ID 和 用 户 组 ID。 

口 成 员 f_ra 用 于 文件 预 读 的 设置 。 在 第 10 章 将 继续 详细 分 析 预 读 的 使 用 。 

口 f_mapping 指向 一 个 address_space 结构 。 这 个 结构 封装 了 文件 的 读 写 缓存 页 面 。 


2.2 文件 系统 的 架构 
VFS 是 具体 文件 系统 的 抽象 ， 而 VFS 又 是 依靠 超级 块 、inode、dentry 以 及 文件 这 些 结 
构 来 发 挥 作用 。 所 以 文件 系统 的 架构 就 体现 在 这 些 结构 的 使 用 方式 中 。 


2.2.1 超级 块 作用 分 析 
每 个 文件 系统 都 有 一 个 超级 块 结构 ， 每 个 超级 块 都 要 链接 到 一 个 超级 块 链表 。 而 文件 系 
统 内 的 每 个 文件 在 打开 时 都 需要 在 内 存 分 配 一 个 inode 结构 ， 这 些 inode 结构 都 要 链接 到 超 


级 块 。 

图 2-1 展示 了 超级 块 之 间 的 关系 以 及 超级 块 和 inode 之 间 的 链接 关系 。super_blockl 和 
super_block2 是 两 个 文件 系统 的 超级 块 ， 它 们 被 链接 到 super_blocks 链表 头 ， 后 者 使 用 的 就 
是 内 核 基础 层 介 绍 的 双向 链表 数据 结构 ， 顺 着 super_blocks 链表 可 以 遍历 整个 操作 系统 打开 
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过 的 文件 的 inode 结构 。 





图 2-1 超级 块 的 结构 


2.2.2 dentry 作用 分 析 


super_ block2 





2.1.3 节 分 析 了 VFS 中 dentry 的 数据 结构 和 作用 ， 为 了 进一步 理解 dentry， 我 们 用 图 2-2 




















来 解释 dentry 的 链接 关系 。 
| | 
nk 
home mnt 

















9 ] 





图 2-2 文件 系统 的 目录 结构 


如 图 2-2 所 示 ， 根 目录 下 有 usr 和 home 两 个 目录 ,usr 目 录 下 有 wi 和 nk 两 个 文件 ， 
home 目录 下 有 个 mnt 目录 ,这 是 另外 一 个 文件 系统 ， 挂 载 ( mount) 到 当前 文件 系统 。 在 


mnt 目录 下 有 个 oj 文件 。 


文件 系统 的 dentry 链表 图 如 图 2-3 所 示 。 这 只 是 个 示意 图 ， 但 是 展示 了 几 个 重要 的 概念 。 
1 ) 每 个 文件 的 dentry 链接 到 父 目录 的 dentry， 形 成 了 文件 系统 的 结构 树 。 
具体 说 ， 就 是 usr 和 home 两 个 dentry 的 d_child 成 员 链接 到 根 目录 dentry 的 d_subdirs 


成 员 。 而 wj 和 nk 两 个 dentry 结构 链接 到 usr 这 个 dentry。 
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2 ) 所 有 的 dentry 都 指向 一 个 dentry_hashtable。 

dentry_hashtable 是 个 数组 ， 它 的 数组 成 员 是 第 ! 章 介绍 过 的 hash 链表 数据 结构 。 这 里 
所 说 的 dentry， 指 的 是 在 内 存 中 的 dentry。 如 果 某 个 文件 已 经 被 打开 过 ， 内 存 中 就 应 该 有 该 
文件 的 dentry 结构 ， 并 且 该 dentry 被 链接 到 dentry_hashtable 数组 的 某 个 hash 链表 头 。 后 续 
再 访问 该 文件 的 时 候 ， 就 可 以 直接 从 hash 链表 里 面 找到 ， 避 免 了 再 次 读 硬盘 。 这 是 dentry 
的 cache 概念 。 

3 ) home 目录 下 的 mnt 目录 指向 一 个 挂 载 的 文件 系统 。 

如 何 判断 目录 不 是 一 个 普通 的 目录 ， 而 是 一 个 文件 系统 ? 这 是 dentry 的 d_mounted 成 员 
的 功能 。 如 果 该 成 员 不 为 0， 代表 该 dentry 是 个 挂 载 点 ， 有 文件 系统 挂 载 ， 需 要 特殊 处 理 。 


dentry_hashtable 
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图 2-3 dentry 链表 图 


从 图 2-3 可 以 看 到 ， 挂 载 过 来 的 文件 系统 本 身 也 有 一 个 dentry 树 ， 也 有 自己 的 根 目录 。 
两 个 dentry 树 之 间 并 没有 链接 关系 。 如 何 查找 到 挂 载 的 文件 系统 哪 ? 我 们 用 图 2-4 来 解释 。 
图 2-4 展示 了 一 个 新 的 数据 结构 vfsmount。 对 这 个 数据 结构 不 做 过 多 的 探讨 ， 只 需要 知 
道 每 个 文件 系统 都 有 这 样 一 个 结构 。 当 文件 系统 被 挂 载 的 时 候 ， 它 的 vfsmount 结构 就 被 链接 
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到 内 核 的 一 个 全 局 链表 一 一 mount_hashtable 数组 链表 。 






vismountl 


图 2-4 挂 载 的 链表 图 


mount_hashtable 是 个 数组 ， 它 的 每 个 成 员 都 是 一 个 hash 链表 。 上 文 的 例子 有 两 个 
vfsmount，cj 文件 所 在 文件 系统 的 vfsmount 被 链接 到 mount_hashtable。 这 样 当 发 现 mnt 目录 
是 个 特殊 的 目录 时 ， 从 mount_hashtable 数组 找到 hash 链表 头 ， 再 遍历 整个 hash 链表 ， 就 能 
找到 oj 文件 所 在 文件 系统 的 vfsmount， 然 后 mnt 目录 的 dentry 就 被 替换 ， 置 换 为 新 文件 系 
统 的 根 目录 。 具 体 过 程 参考 打开 文件 的 代码 分 析 。 


2.2.3 inode 作用 分 析 

系统 内 核 提 供 了 一 个 hash 链表 数组 inode_hashtable， 所 有 的 inode 结构 都 要 链接 到 数组 
里 面 的 某 个 hash 链表 。 这 种 用 法 和 前 文 介绍 的 hash 链表 数组 dentry_hashtable 的 用 法 很 类 
似 ， 这 里 就 不 再 分 析 了 。 

在 Linux 系统 里 ， 字 符 设 备 和 块 设备 、 普 通 文件 和 目录 、socket 等 都 是 一 个 文件 ， 所 以 
它们 都 有 自己 的 inode 结构 。 为 了 辨别 这 些 不 同 的 类 型 ，inode 结构 的 i_mode 成 员 用 不 同 的 
值 代表 不 同 的 类 型 。 如 表 2-1 所 示 。 

表 2-1 i_mode 代表 的 类 型 

















imode 类 型 
S_IFBLK 块 设备 
S_IFCHR 字符 设备 
S_IFDIR 目录 
S_IFSOCK socket 
S_IFIFO FIFO 
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inode 还 有 一 个 重要 的 作用 是 缓存 文件 的 数据 内 容 。 这 是 通过 成 员 i.mapping 实现 的 。i_ 
mapping 使 用 了 数据 结构 radix 树 来 保存 文件 的 数据 。 这 个 数据 结构 在 1.2 节 已 经 介绍 过 。 在 
后 面 文件 的 读 写 过 程 分 析 中 ， 还 将 继续 分 析 文件 内 容 读 写 的 代码 。 


2.2.4 文件 作用 分 析 
文件 对 象 代表 进程 和 具体 文件 交互 的 关系 。 内 核 为 每 个 打开 的 文件 申请 一 个 文件 对 象 ， 
同时 返回 文件 的 号 码 。 如 图 2-5 所 示 ， 每 个 进程 都 指向 一 个 文件 描述 符 表 。 








进程 | 











FileS 











图 2-5 进程 和 文件 描述 符 表 


这 个 表 里 面 用 数组 保存 了 进程 中 每 个 打开 的 文件 。 当 应 用 进程 打开 一 个 硬盘 上 的 文件 
时 ， 内 核 要 为 这 个 文件 分 配 一 个 文件 对 象 并 保存 文件 指针 到 文件 描述 符 表 里 面 的 数组 。 


人 注意 

这 里 的 “文件 ” 指 的 是 在 硬盘 上 具体 存在 的 文件 ， 而 “文件 对 象 ” 是 在 内 存 里 存在 的 文 
件 结构 。 当 读 写 文件 的 时 候 ， 通 过 文件 号 就 可 以 获得 文件 的 对 象 。 这 也 就 是 读 写 文件 必须 先 
打开 文件 的 原因 ， 如 果 不 执行 打开 的 过 程 ， 是 不 能 完成 文件 读 写 的 。 


2.3 从 代码 层次 深入 分 析 文 件 系统 

文件 系统 千 头 万 绪 ， 但 对 用 户 来 说 ， 最 重要 的 就 是 创建 目录 、 创 建文 件 、 打 开 文件 和 文 
件 读 写 。 对 于 通常 的 硬盘 文件 系统 来 说 ， 这 要 涉及 硬盘 的 读 写 和 硬盘 空间 管理 ， 而 读 写 从 文 
件 系统 层 一 直到 通用 块 设备 层 再 到 硬盘 驱动 ， 未 免 太 过 复杂 。 为 了 简化 ， 我 们 给 出 一 个 最 简 
单 文件 系统 ， 通 过 这 个 例子 导 人 文件 系统 的 基本 概念 。 然 后 通过 代码 分 析 ， 滨 步 深入 内 核 ， 
了 解 一 下 博大 精深 的 内 核 架 构 。 
aN 
国 ) 二 示 


本 文 假定 读者 已 经 了 解 模 块 概念 ， 以 及 如 何 编译 和 安装 模块 。 
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2.3.1 一 个 最 简单 的 文件 系统 aufs 

我 们 先 写 一 个 最 简单 的 文件 系统 ， 这 个 文件 系统 直接 创建 在 内 存 中 。 它 在 内 存 中 创建 了 
两 个 目录 和 几 个 文件 ,用户 可 以 通过 ls 命令 显示 目录 和 文件 ， 但 是 无 法 创建 目录 和 文件 ， 也 
不 能 对 文件 进行 读 写 操作 。 这 样 不 涉及 硬盘 操作 ， 大 大 简化 了 开始 阶段 需要 考虑 的 问题 ， 这 
个 例子 如 代码 清单 2-5 所 示 。 


代码 清单 2-5 最 简单 文件 系统 aufs 源 代码 


#include <linux/module.h> 
#include <linux/fs.h> 
#include <linux/pagemap.h> 
#include <linux/mount.h> 
#include <linux/init.h> 
Hinclude <linux/namei.h> 





#define RUFS_MAGIC Ox64668735 


static struct vfsmount *aufs_mount; 
static int aufs_mount count; 


static struct inode *aufs get inode(struct super block *sb, int mode, dev_t dev) 
{ 
struct inode *inode ~ new_inode(sb); 


if (inode) { 
inode->i_mode ~ modes; 
inode->i_uid = current->fsuid; 
inode->i_gid = current->fsgid; 
inode->i_blksize = PAGE_CACHE SIZE; 
inode->i_blocks = 0; 
inode->i_atime = inode->i_ mtime = inode->i_ctime = CURRENT_ TIME; 
switch (mode & S_IFMT) { 
default: 
init_special_inode (inode, mode, dev); 
break; 
case S_IFREG: 
printk("creat a file \n"); 
break; 
case S_IFDIR: 
inode->i_op ~ &simple dir inode operations; 
inode->i_fop = &simple_dir operations; 
printk("creat a dir file \n"); 


inode->i_nlink+t+; 
break; 


} 
return inode; 
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/* SMP-safe */ 
static int aufs mknod(struct inode *dir, struct dentry *dentry, 
int mode, dev_t dev) 


struct inode *inode; 
int error = -EPERM; 


if (dentry->d_inode) 
return -EEXIST; 


inode = aufs get_inode (dir->i_sb, mode, dev); 
if (inode) { 
d_instantiate (dentry, inode); 
dget (dentry); 
error = 07 
} 
return error; 


static int aufs mkdir(struct inode *dir, struct dentry *dentry, int mode) 
{ t 


int res; 


res = aufs_mknod (dir, dentry, mode |S_IFDIR, 0); 
if (!res) 

dir->i_nlinkt+; 
return res; 


static int aufs_create(struct inode *dir, struct dentry *dentry, int mode) 
{ 
return aufs mknod(dir, dentry, mode | S_IFREG, 0); 


static int aufs fill_super(struct super block *sb, void *data, int silent) 
{ 
static struct tree descr debug files{] = {{""}}; 


return simple fill_super (sb, AUFS MAGIC, debug files); 
static struct super block *aufs_get_sb(struct file_system type *fs_type, 
int flags, const char *dev_name, 


void *data) 


return get_sb_single(fs_type, flags, data, aufs_fill_super); 
! 


static struct file_system type au fs type = { 
.owner = THIS_MODULE, 
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name = "aufs", 
.get sb ~ aufs get_sb, 
kill sb = kill litter super, 
bs 
static int aufs_create by name(const char *name, mode_t mode, 


struct dentry *parent, 
struct dentry **dentry) 





int error = 


/* IE the parent is not specified, we create it in the root. 
* We need the root dentry to do this, which is in the super 
* block. A pointer to that is in the struct vfsmount that we 
* have around. 

*/ 
if (!parent ) { 
if (aufs mount 56 aufs mount->mnt sb) { 
parent = aufs_mount->mnt_sb->s_root; 


} 

if (!parent) { 
printk("Ah! can not find a parent!\n"); 
return -EFAULT; 


*dentry = NULL; 
mutex_lock (5parent->d_inode->i_mutex); 
*dentry = lookup_one_len(name, parent, strlen(name)); 
if (!IS_ERR(dentry)) { 
if ((mode & S_IFMT) == S_IFDIR) 
error = aufs mkdir (parent->d_inode, *dentry, mode); 
else 
error ~ aufs_create(parent->d_inode, *dentry, mode); 
} else 
error = PTR_ERR(dentry); 
mutex_unlock (sparent->d_inode->i_mutex); 


return error; 
struct dentry *aufs_create file(const char *name, mode_t mode, 
struct dentry *parent, void *data, 


struct file_operations *fops) 


struct dentry *dentry ~ NULL; 
int error; 


printk("aufs: creating file '%s'\n",name); 
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error = aufs_create_by_name (name, mode, parent, &dentry); 
if (error) { 
dentry = NULL; 
上 goto exit; 
} 
if (dentry->d_inode) { 
if (data) 
dentry->d_inode->u.generic_ip = data; 
if (fops) 
dentry->d_inode->i_fop = fops; 
} 
exit: 
return dentry; 


struct dentry "aufs_create dir(const char *name, struct dentry *parent) 
1 + 
return aufs_create file (name, 
S_IFDIR | S_IRNXU | S_IRUGO | S_IXUGO, 
parent, NULL, NULL); 





static int _init aufs_init (void) 
{ 
int retval; 


struct dentry *pslot; 
retval ~ register filesystem(&au fs type); 


if (!retval) { 
aufs_mount = kern_mount (sau_fs_type); 
if (IS_ERR(aufs_mount)) { 
Printk(KERN_ERR "aufs: could not mount!\n"); 
unregister_filesystem(kau_fs_type) 7 
return retval; 


pslot = aufs_create dir("woman star",NULL); 

aufs_create file("lbb", S_IFREG | S_IRUGO, pslot, NULL, NULL); 
aufs_create file("fbb", S_IFREG | S_IRUGO, pslot, NULL, NULL); 
aufs_create file("1jl", S_IFREG | S_IRUGO, pslot, NULL, NULL); 


pslot = aufs_create dir("man star",NULL); 

aufs_create file("ldh", S_IFREG | S_IRUGO, pslot, NULL, NULL); 
aufs_create file("lcw", S_IFREG | §_IRUGO, pslot, NULL, NULL); 
aufs_create file("jw", S_IFREG | S_IRUGO, pslot, NULL, NULL); 


return retval; 
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static void exit aufs_exit(void) 
{ 

simple_release fs(&aufs mount, &aufs mount_count); 
» unregister filesystem(sau_fs_type); 


} 


module init (aufs_init); 

module exit (aufs exit); 

MODULE LICENSE ("GPL"); 

MODULE DESCRIPTION ("This is a simple module"); 
MODULE VERSION ("Ver 0.1"); 





整个 程序 只 有 两 百 多 行 ， 即 使 对 文件 系统 一 点 不 懂 也 能 了 解 大 概 意思 。 这 个 例子 不 包括 
文件 读 写 等 内 容 ， 目 的 只 是 说 明文 件 系统 内 dentry 、inode 、super_block 等 几 个 重要 概念 。 

程序 编译 后 ， 我 们 通过 insmod 命令 加 载 模块 ， 然 后 执行 如 下 操作 。 

1) 在 根 目录 下 创建 一 个 目录 : 

mkdir au 

2 ) 挂 载 文件 系统 : 

mount -t aufs none /au 

3 ) 列 出 文件 系统 的 内 容 : 

1s 


看 到 了 什么 ? 可 以 发 现 “ woman star” 和 “ man star” 两 个 目录 。 然 后 到 woman star 目 
录 再 执行 ls， 目录 下 果然 有 lbb、fbb、 世 三 个 文件 。 这 就 是 我 们 在 代码 中 希望 做 到 的 事情 。 


2.3.2 文件 系统 如 何 管理 目录 和 文件 

现在 我 们 先 看 看 这 段 程序 究竟 执行 了 什么 就 创建 了 一 个 最 简单 文件 系统 ， 然 后 再 深入 内 
核 分 析 究竟 发 生 了 什么 。 

整个 程序 代码 可 以 分 为 三 部 分 。1 ) 首先 是 register_filesystem 函数 ， 这 个 函数 把 aufs 文 
件 系统 登记 到 系统 ;2 ) 然后 调用 kern_mount 函数 为 文件 系统 申请 必 备 的 数据 结构 ; 3 ) 最 后 
在 aufs 文件 系统 内 创建 两 目录 ， 每 个 目录 下 面 创建 三 个 文件 。 

register_filesystem 函数 顾名思义 ， 就 是 把 一 个 特定 的 文件 系统 登记 到 内 核 。 这 个 函数 的 
实现 如 代码 清单 2-6 所 示 。 

代码 清单 2-6 register_filesystem 函数 





int register filesystem(struct file_system type * fs) 
{ 

int res = 07 

struct file_system type ** p; 


if (!fs) 
return -EINVAL; 
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if (fs->next) 
return -EBUSY; 
INIT LIST HEAD(sfs->fs_supers); 
write_lock(sfile_systems_lock); 
~ p = find filesystem(fs->name); 


if (*p) 

res = -EBUSY; 
else 

wp = fs 


write_unlock (sfile_systems_lock); 
return res; 
} 





函数 register_filesystem 的 参数 是 一 个 文件 类 型 指针 ， 函 数 执行 部 分 要 在 内 核 寻 找 相同 名 
字 的 文件 系统 ， 如 果 不 存 在 相同 名 字 的 文件 系统 ， 就 把 aufs 加 入 到 系统 的 文件 系统 链表 。 如 
果 这 个 文件 系统 已 经 存在 ， 则 返回 忙 。 

内 核定 义 一 个 全 局 变量 file_systems， 用 来 保存 所 有 登记 的 文件 系统 ， 而 find |_filesystem 
利用 全 局 变量 file_systems 执行 了 具体 的 查找 过 程 。 这 个 函数 非常 简单 ， 但 是 显然 主要 工作 
没 在 这 里 完成 ， 我 们 继续 往 下 看 kern_mount 函数 。kern_mount 真正 为 文件 系统 分 配 了 超级 


块 对 象 和 vfsmount 对 象 。 具 体 代码 如 代码 清单 2-7 所 示 。 


代码 清单 2-7 kern_mount 函数 





struct vfsmount “kern_mount (struct fle_system_type *type) 
{ 
return vfs_kern_mount (type, 0, type->name, NULL); 


} 





kern_mount 只 是 vfs_kern_mount 的 封装 。vfs_kern_mount 的 代码 如 代码 清单 2-8 所 示 。 


代码 清单 2-8 vfs_kern_mount 函数 





struct vfsmount * 


vfs_kern_mount (struct file_system type *type, int flags, const char *name, void *data) 


{ 
struct vfsmount *mnt; 
char *secdata = NULL; 
int error; 


if (!type) 
return ERR_PTR(-ENODEV); 
/* 分 配 一 个 vfsmount 结构 */ 
error = -ENOMEM; 
mnt = alloc vfsmnt (name); 
if (!mnt) 
goto out; 





vfs_kem_mount 函数 的 代码 很 长 ， 为 了 方便 阅读 ， 我 们 将 vfs_kem_mount 分 为 三 个 部 分 。 
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第 一 部 分 是 根据 文件 系统 的 名 字 为 文件 系统 创建 了 一 个 vfsmount 结构 。 这 个 结构 在 
2.2.2 节 分 析 过 ， 是 用 来 为 文件 系统 之 间 的 挂 载 关系 而 设计 的 ， 后 文 还 将 继续 分 析 具 体 的 
mount 过 程 。 

/六 如 果 mount 有 数据 参数 ， 才 执行 下 面 的 代码 。 对 本 章 的 例子 来 说 ， 这 部 分 跳 过 */ 

if (data) 
| i = alloc_secdata()7 
if (lsecdata) 
goto out_mnt; 


error = security_sb_copy_dataltype, data, secdata); 
if (error) 
goto out_free_secdata; 


/* 调用 文件 系统 超级 块 提供 的 get_sb 函数 。 对 aufs 文件 系统 来 说 ,就 是 aufs_get_sb*/ 
error = type->get_sb(type, flags, name, data, mnt); 
if (error < 0) 
goto out_free_ secdata; 
vfs_kern_mount 的 第 二 部 分 是 调用 文件 系统 提供 的 get_sb 创建 一 个 超级 块 对 象 。 创 建 超 
级 块 对 象 的 同时 ， 还 要 创建 一 个 dentry 结构 作为 文件 系统 的 根 dentry ( root dentry) 和 一 个 
inode 结构 作为 文件 系统 的 根 inode。 文 件 系统 的 根 dentry 等 于 文件 系统 的 根 目录 ， 后 续 创建 
的 一 级 目录 都 要 以 这 个 根 目录 作为 父 目录 。 
/* 安全 相关 的 代码 ， 可 以 跳 过 */ 
error = security sb_ kern_mount (mnt->mnt_sb, secdata); 
if (error) 
goto out_sb; 


/*mnt 数据 在 申请 的 时 候 被 冉 予 空 仁 ， 这 里 mnt_mountpoint 和 mnt_root 都 为 空 */ 
mnt->mnt_mountpoint = mnt->mnt_root; 
mnt->mnt parent = mnts; 
up_write (sémnt->mnt_sb->s_umount); 
free_secdata (secdata); 
return mnt; 

} 

最 后 一 部 分 设置 vfsmount 结构 的 父 指针 为 自身 ，mnt_mountpoint 为 文件 系统 的 根 
dentry。 如 果 把 文件 系统 mount 到 其 他 的 文件 系统 ， 那 么 这 两 个 参数 就 要 设置 为 源 文件 系统 
的 参数 。 

三 部 分 综合 起 来 ，vfs_kern_mount 函数 实际 已 经 执行 了 文件 系统 登记 的 大 部 分 工作 。 

vfs_kern_mount 函数 的 整体 分 析 完 毕 ， 其 中 的 get_sb 函数 比较 重要 ， 需 要 细节 分 析 。 对 
aufs 文件 系统 而 言 ， 它 的 get_sb 函数 是 aufs_get_sb。 这 个 函数 的 代码 如 代码 清单 2-9 所 示 。 


代码 清单 2-9 aufs_get_sb 函数 


static struct super block *aufs get_sblstruct file_system_type *fs_type, 
int flags, const char *dev name,void *data) 
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{ 
return get_sb_singlel(fs type, flags, data, aufs fill_super); 


} 





aufs_get_sb 是 个 封装 函数 ， 实 际 上 调用 了 系统 提供 的 get_sb_single 函数 ， 这 个 函数 的 代 
码 如 代码 清单 2-10 所 示 。 
代码 清单 2-10 get_sb_single 函数 


int get_sb_single(struct file_system type *fs_type, 





791 int flags, void *data, 
792 int (*fill_super) (struct super_ block *, void *, int), 
793 struct vfsmount *mnt) 
794 人 
795 struct super block *s; 
796 int error; 
797 
798 =s = sget(fs_type, compare_single, set_anon_super, NULL); 
799 if (IS_ERR(s)) 
800 return PTR ERR(s); 
801 if (!s->s_root) { 
802 s->s_flags = flags; 
/* 调用 传递 进来 的 函数 指针 。 这 里 就 是 aufs_fill_super*/ 

803 error = fill super(s, data, flags & MS SILENT ? 1 : 0); 
809 5s->s flags |= MS_ACTIVE; 
810 1} 

/* 改变 mount 的 选项 */ 
811 do_remount_sbls, flags, data, 0); 
812 return simple_set_mnt(mnt, s); 
813 } 


get_sb_single 首先 获得 一 个 超级 块 对 象 ， 如 果 文 件 系统 的 超级 块 对 象 已 经 存在 ， 返 回 对 
象 指针 ， 如 果 不 存 在 ， 则 创建 一 个 新 的 超级 块 对 象 。 

创建 超级 块 对 象 后 ， 第 801 行 代码 检查 超级 块 对 象 是 否 有 根 dentry， 如 果 尚 未 有 根 
dentry， 调 用 传递 进来 的 函数 指针 fill_super 为 超级 块 对 象 填充 根 dentry 和 根 inode。 

最 后 的 simple_set_mnt 函数 要 把 创建 的 超级 块 对 象 赋值 给 vfsmount 结构 所 指 的 超级 块 ， 
同时 vfsmount 所 指 的 mnt_root 点 赋值 为 超级 块 所 指 的 根 dentry。 于 是 从 vfsmount 结构 就 可 
以 获得 文件 系统 的 超级 块 对 象 和 根 dentry 。 

函数 他 |_super 函数 作用 是 为 超级 块 对 象 申请 必 备 的 成 员 。 对 于 aufs 文件 系统 而 言 ， 传 
递 的 函数 指针 是 aufs_fill_super 函数 。 这 个 函数 的 代码 如 代码 清单 2-11 所 示 。 


代码 清单 2-11 aufs_fill_super 函数 


static int aufs fill_super(struct super block *sb, void *data, int silent) 
{ 
static struct tree descr debug files[] = {{""}}; 
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return simple fill super(sb, AUFS MAGIC, debug files); 


+ 





aufs_fill_super 定义 了 一 个 空 的 tree_descr 结构 ， 这 个 结构 的 作用 是 描述 一 些 文件 。 如 果 
不 为 空 ， 填 充 超级 块 的 同时 ， 需 要 在 根 目录 下 创建 一 些 文件 ;当前 为 空 ， 说 明 不 需要 创建 任 
何 文件 。simple_fill_super 函数 实现 了 填充 根 dentry 的 执行 过 程 ， 具 体 代码 如 代码 清单 2-12 





所 示 。 
代码 清单 2-12 填充 超级 块 的 simple_fill_super 函数 

int simple fill_super (struct super block *s, int magic, struct tree_descr *files) 
368 1{ 
369 static struct super operations s_ops ~ {.statfs = simple statfs}; 
370 struct inode *inode; 
371 struct dentry *root; 
372 struct dentry *dentry; 
373 int 1; 
374 
375 s->s_blocksize = PAGE CACHE SIZE; 
376 s->s_blocksize bits = PAGE CACHE SHIFT; 
377 s->s_magic = magic; 
378 s->s_op = 5s_ops; 
379 8->s_time gran = 1; 
380 
381 inode ~ new inode(s); 
382 if (!inode) 
383 return -ENOMEM; 
384 inode->i_mode = S_IFDIR | 0755; 
385 inode->i_uid = inode->i_gid = 0; 
386 inode->i_blksize ~ PAGE CACHE SIZE; 
387 inode->i_blocks = 0; 
388 inode->i atime ~ inode->i mtime -~ inode->i ctime ~ CURRENT_TIME; 
389 inode->i_op = &simple dir_ inode operations; 
390 inode->i_fop = &simple_dir_operations; 
391 inode->i nlink = 2; 

/* 创 建 一 个 dentry 对 象 */ 
392 root ~ d_alloc_root (inode); 





simple_fill_super 函数 第 一 部 分 是 为 超级 块 对 象 赋 初 值 。 超 级 块 对 象 指示 了 文件 系统 的 块 
大 小 ,第 375 行 赋值 aufs 文件 系统 的 块 尺寸 为 一 个 页 面 ， 一 个 页 面 通常 是 4K 大 小 ， 以 比特 
位 计算 就 是 12 位 。 第 378 行为 超级 块 对 象 赋予 操作 函数 ，simple_fill_super 实际 上 只 为 超级 
块 对 象 提供 了 一 个 操作 函数 simple_statfs。 

从 第 381 行 开始 创建 一 个 inode 结构 。 这 个 inode 是 文件 系统 的 根 inode， 所 以 第 382 行 
设置 它 是 一 个 目录 ， 代 表 根 目录 ， 然 后 设置 它 的 块 尺寸 和 文件 大 小 。inode 结构 包含 它 的 操 
作 函 数 ,第 389 行 和 390 行 分 别 赋值 它 的 inode 操作 函数 和 文件 操作 函数 。 

第 392 行 d_alloc_root 作用 是 创建 一 个 根 dentry。 根 dentry 的 父 结构 是 自身 ， 它 指向 的 
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超级 块 对 象 就 是 文件 系统 的 超级 块 对 象 。 根 dentry 的 名 字 被 指定 为 斜 杠 符 “ /"， 这 就 是 从 根 
目录 开始 查找 文件 使 用 斜 杠 符 “/” 作 为 开始 的 原因 。 


for (i = 0; !files->name || files->name[0]; i++, filest+) { 
398 if (!files->name) 
399 continue; 
400 dentry = d_alloc_name (root, files->name); 
401 if (!dentry) 
402 goto out; 


403 inode = new_inode(s)7 

404 if (!inode) 

405 goto outs 

406 inode->i mode = S_IFREG | files->mode; 

407 inode->i_uid = inode->i gid = 0; 

408 inode->i blksize = PAGE_CACHE SIZE; 

409 inode->i_blocks = 0; 

410 inode->i atime ~ inode->i mtime = inode->i_ctime = CURRENT TIME; 
411 inode->i_fop = files->ops; 

412 inode->i ino = i; 

413 d_add(dentry, inode); 

414 } 

/* 超级 块 内 保存 root dentry 的 指针 。 这 样 内 核 就 可 以 通过 root dentry 遍历 文件 系统 了 */ 
415 s->s_root = roots; 

416 return 07 


simple_fill_super 函数 的 第 二 部 分 是 根据 传递 进来 的 参数 ， 在 根 目录 下 创建 一 系列 的 文 
因为 当前 场景 传 进来 的 是 空 参数 ， 所 以 这 里 可 以 跳 过 。 
通过 代码 分 析 ， 到 目前 为 止 ， 创建 了 一 个 超级 块 对 象 ， 创 建 了 一 个 根 dentry 和 一 个 
根 inode。 后 面 创建 的 文件 和 目录 都 应 该 链接 到 这 个 根 dentry。 代 码 里 面 的 new_inode 和 d_ 
alloc_root 都 很 简单 ， 留 给 读者 自己 分 析 。 

再 回 到 aufs 文件 系统 。 创 建 目录 和 创建 文件 调用 了 不 同 的 函数 ，aufs_create_dir 函数 的 
作用 是 创建 一 个 目录 ， 它 的 代码 如 代码 清单 2-13 所 示 。 


代码 清单 2-13 aufs_create_dir 


struct dentry *aufs create dir(const char *name, struct dentry *parent) 
{ 
return aufs_create file(name, 
S_IFDIR | S_IRWXU | S_IRUGO | S_IXUGO, 
parent, NULL, NULL); 


件 





} 





aufs_create_dir 是 aufs_create_file 函数 的 封装 函数 ，aufs_create_file 函数 执行 创建 文件 的 
过 程 。 调 用 aufs_create_file 的 时 候 ， 传 递 的 参数 S_IFDIR 指明 创建 的 是 一 个 目录 。 
aufs_create_file 的 代码 如 代码 清单 2-14 所 示 。 
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代码 清单 2-14 创建 文件 的 aufs_create_file 函数 


struct dentry *aufs_create file(const char *name, mode t mode, 
struct dentry *parent, void *data, 
struct file operations *fops) 





if (dentry->d_inode) { 
if (data) 
dentry->d_inode->u.generic ip = data; 
if (fops) 
dentry->d_inode->i_fop = fops; 
} 
exit: 
return dentry; 
} 





回忆 前 面 的 知识 ， 文 件 是 由 dentry 和 inode 代表 的 。 而 执行 函数 aufs_create_by_name 
后 ， 空 指针 dentry 已 经 被 赋值 了 ， 而 且 有 d_inode 成 员 ， 说 明 它 的 的 作用 是 创建 文件 的 
dentry 和 inode 结构 ， 如 代码 清单 2-15 所 示 。 
代码 清单 2-15 根据 名 字 创 建文 件 的 aufs_create_by_name 函数 


static int aufs_create by_name(const char *name, mode_t mode, 
struct dentry *parent, 
struct dentry **dentry) 





int error = 0; 


/* 如 果 没 有 父 目录 ,就 赋予 一 个 。 赋 予 的 是 哪 一 个 ? 就 是 前 面 创建 的 root dentry*/ 
if (!parent ) { 

if (aufs mount 55 aufs_mount->mnt_sb) 1 

Parent ~ aufs mount->mnt sb->s_root; 

} 
上 
if (!Parent) { 

printk("Ah! can not find a parent!\n"); 

return -EFAULT; 





函数 aufs_create_by_name 起 始 部 分 要 判断 是 否 有 父 目录 ， 如 果 没 有 父 目 录 就 赋予 一 个 。 
赋予 的 是 哪 一 个 ”就 是 文件 系统 的 根 dentry。 


*dentry = NULL; 
mutex_lock (sparent->d inode->i mutex); 
/* 检查 要 创建 的 这 个 目录 存在 不 存在 ? 是 不 是 重复 了 */ 


*dentry = lookup_one len{name, parent, strlen(name)); 
if (!IS ERR(dentry)) { 
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/* 分 成 两 个 分 支 。 如 果 是 目录 则 调用 aufs_mkdir， 如 果 是 文件 ， 则 调用 aufs_create*/ 
if ((mode 5 S_IFMT) -== S_IFDIR) 
error = aufs mkdir (parent->d_inode, *dentry, mode); 
else 
error = aufs_create (parent->d_inode, *dentry, mode); 
} else 
error = PTR_ERR(dentry); 
mutex_unlock (&parent->d_inode->i_mutex); 


return error; 


} 

然后 调用 lookup_one_len 获得 一 个 dentry 结构 。lookup_one_len 函数 首先 在 父 目 录 下 根 
据 名 字 查 找 dentry 结构 ， 如 果 存 在 同名 的 dentry 结构 就 返回 指针 ， 如 果 不 存在 就 创建 一 个 
dentry。lookup_one_len 的 代码 如 代码 清单 2-16 所 示 。 


代码 清单 2-16 查找 同名 dentry 的 lookup_one_len 函数 


struct dentry * lookup_one len(const char * name, struct dentry * base, int len) 
1272 1 

en /* 省 略 参数 定义 */ 
1277 thi 
1278 this.len = len; 
1279 if (!len) 
1280 goto access; 
1281 /* 这 里 根据 名 字 计算 hasn 值 ， 看 看 是 怎么 计算 的 */ 
1282 hash = init_name_hash(); 
1283 while (len--) { 





name = name; 





1284 c= *(const unsigned char *) name+ 二 7 
1285 if (ce == '/' || ec == '\0') 

1286 goto access; 

1287 hash = partial_name_hash(c, hash); 
1288 } 

1289 this.hash = end_name_hash (hash); 

1290 


1291 return _ lookup_hashlsthis, base, NULL); 





第 1282 ~ 1289 行 的 作用 是 计算 名 字 的 hash 值 。 因 为 初始 hash 函数 init_name_hash 和 
最 终 hash 函数 end_name_hash 都 不 执行 任何 的 计算 ， 所 以 最 终 得 到 的 hash 值 是 将 名 字 中 的 
每 个 字符 做 固定 的 数学 运算 得 到 的 。 

__lookup_hash 函数 是 通过 hash 值 查找 同名 字 的 dentry 结构 ， 它 的 代码 如 代码 清单 2-17 
所 示 。 

代码 清单 2-17 在 hash 链表 中 查找 的 _ Ilookup_hash 函数 


static struct dentry * _ lookup_hash(struct qstr *name, 
struct dentry * base, struct nameidata *nd) 
{ 

struct dentry * dentry; 
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struct inode *inode; 
int err; 


inode = base->d_inode; 
err = permission(inode, MAY_EXEC, nd); 
dentry = ERR_PTR(err); 
if (err) 
goto out; 


AL 
* See if the low-level filesystem might want 
* to use its own hash.. 

if (base->d_op 55 base->d op->d hash) { 

err = base->d_op->d_hash (base, name); 
dentry = ERR_PTR(err)7 
if (err < 0) 
goto out; 
上 





_lookup_hash 函数 第 一 部 分 是 检查 inode 的 权限 ， 然 后 检查 文件 系统 是 否 提供 了 特有 的 
hash 函数 ， 如 果 有 hash 函数 ， 则 调用 重新 计算 hash 值 。 


dentry = cached_lookup (base, name, nd); 
if (!dentry) { 
/* 如 果 没 有 找到 。 说 明 这 个 目录 不 存在 ， 则 创建 一 个 dentry*/ 
struct dentry *new = d_alloc(base, name); 
dentry = ERR_PTR(-ENOMEM); 
if (!new) 
goto out; 
dentry = inode->i_op->lookup (inode, new, nd); 
if (!dentry) 
dentry = new; 
else 
dput (new) 7 
} 
out: 
return dentry; 


} 

cached_lookup 在 dentry cache 里 面 查找 同名 的 dentry 结构 ， 如 果 返 回 为 室 ， 说 明 不 存在 
同名 的 dentry 结构 ， 那 么 调用 d_alloc 创建 一 个 新 的 dentry 结构 。 

创建 dentry 结构 完成 后 ， 需 要 再 次 调用 文件 系统 的 lookup 查找 是 否 有 同名 的 dentry 存 
在 。 这 样 做 为 了 防止 同名 的 dentry 已 经 被 其 他 用 户 提前 创建 了 。 

cached_lookup 函数 的 代码 如 代码 清单 2-18 所 示 。 


代码 清单 2-18 cached_lookup 函数 


static struct dentry * cached lookup(struct dentry * parent, 
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struct qstr * name，struct nameidata *nd) 
{ 
struct dentry * dentry = _d lookup (parent, name); 


/* lockess _d_lookup may fail due to concurrent d_move() 
* in some unrelated directory, so try with d_ lookup 
“ 
/* 注意 原来 的 解释 ,为 何 再 次 查找 ? 因为 要 防止 一 个 并 发 的 move 操作 */ 
if (!dentry) 

dentry = d_lookup (parent, name); 

ise /* 省 咯 校 验 的 代码 */ 





cached_lookup 函数 使 用 两 次 lookup。 第 一 次 调用 _d_lookup， 而 第 二 次 调用 d_lookup。 
这 是 因为 要 防止 并 发 的 d_move 操作 。__d_lookup 执行 中 没有 获得 重 命名 锁 ， 有 可 能 因为 重 
命名 操作 而 失败 。 

这 种 类 似 的 做 法 在 内 核 里 很 常见 。 因 为 内 核 是 为 所 有 用 户 进程 提供 服务 ， 必 须 考虑 并 
发 性 。 

__d _lookup 的 代码 如 代码 清单 2-19 所 示 。 


代码 清单 2-19 _d_lookup 函数 


struct dentry * _d lookup(struct dentry * parent, struct qstr * name) 
{ 

unsigned int len -~ name->len; 

unsigned int hash = name->hash; 

const unsigned char *str ~ name->name; 

struct hlist_head *head = d_hash(parent,hash); 

struct dentry *found = NULL; 

struct hlist_node *node; 

struct dentry *dentry; 








函数 _d_lookup 起 始 部 分 要 找到 hash 链表 。 内 核 中 的 dentry 结构 都 根据 hash 值 链接 到 
众多 hash 链表 中 ， 这 些 hash 链表 的 头 结构 保存 在 数组 dentry_hashtable 中 。 利 用 parent 指针 
和 hash 值 计 算 最 终 的 hash 值 ， 从 数组 dentry_hashtable 中 获得 hash 链表 的 链表 头 。 


reu_read_lock(); 


/* 遍 历 hash list */ 
hlist_for each entry_rculdentry, node, head, d_hash) { 
struct qstr *qstr; 


if (dentry->d_name.hash != hash) 
continue; 

if (dentry->d_parent != parent) 
continuey 


spin_lock(gdentry->d_lock); 
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} 


获得 hash 链表 头 之 后 ， 


/* 
* Recheck the dentry after taking the lock - d_move may have 
* changed things. Don't bother checking the hash because we're 
* about to compare the whole name anyway. 
el 
if (dentry->d_parent != parent) 

goto next; 


/* 
* It is safe to compare names since d_move() cannot 
* change the qstr (protected by d_lock). 

多 

qstr = 5dentry->d_namey 

/* 如 果 文 件 系统 定义 了 d_compare 函数 ， 则 调用 */ 

if (Parent->d_op 55 Parent->d_op->d_compare) { 

if (parent->d_op->d_compare (Parent，qstr，name)) 
goto next; 

} else { 

/* 比较 长 度 是 否 相同 */ 

if (qstr->len != len) 
goto next; 

/* 比较 目 姑 名字 是 否 相同 */ 

if (memcmp (qstr->name, str, len)) 
goto next; 


if (!d_unhashed (dentry)) { 
atomic_inc(&dentry->d_count); 
found = dentry; 

1 

spin_unlock (sdentry->d_lock); 

break; 


next: 


spin_unlock(&dentry->d_lock); 


rcu_read_unlock(); 


return found; 


_d lookup 遍历 整个 hash 链表 ， 寻 找 匹配 的 dentry 结构 。 匹 配 





的 过 程 参考 代码 中 的 注释 部 分 。 找 到 或 者 创建 dentry 结构 后 ， 还 需要 创建 node 结构 。 接 续 
前 面 的 分 析 ， 返 回 aufs_create_by_name 函数 。 创 建 node 结构 是 其 中 aufs_mkdir 函数 的 功 
能 ， 它 的 代码 如 代码 清单 2-20 所 示 。 


代码 清单 2-20 创建 目录 文件 的 aufs_mkdir 函数 





static int aufs mkdir(struct inode *dir, struct dentry *dentry, int mode) 


{ 


int res; 
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/* 参数 S_IFDIR 指示 是 创建 一 个 目录 文件 的 inode*/ 
res = aufs_mknod(dir, dentry, mode |S_IFDIR, 0); 
if (!res) 
dir->i_nlink+t+; 
return res; 
} 





aufs_mkdir 封装 了 aufs_mknod 函数 ，aufs_mknod 代码 如 代码 清单 2-21 所 示 。 
代码 清单 -21 aufs_mknod 函数 








static int aufs mknod(struct inode *dir, struct dentry *dentry, 
int mode, dev_t dev) 
( 
struct inode *inode; 
int error = -EPERM; 
/* 如 果 dentry 已 经 有 d_inode 结构 ,说明 inode 已 经 存在 了 */ 
if (dentry->d_inode) 
return -EEXIST; 


inode = aufs get_inode (dir->i_sb, mode, dev); 
if (inode) { 
d_instantiate (dentry, inode); 
dget (dentry); 
error ~ 07 
Ud 
return error; 
} 





aufs_mknod 函数 通过 aufs_get_inode 来 创建 目录 文件 的 inode， 然 后 调用 d_instantiate 函 


数 把 dentry 加 入 到 inode 的 dentry 链表 头 。 


aufs_get_inode 创建 了 一 个 inode 结构 ， 同 时 要 把 inode 结构 加 入 超级 块 对 象 的 inode 链 


表 头 ， 这 样 从 超级 块 对 象 的 inode 链表 ， 可 以 遍历 文件 系统 内 所 有 的 inode 结构 。 除 了 超级 
块 对 象 的 链表 ，inode 还 要 加 入 一 个 全 局 变量 链表 inode_in_use， 这 个 链表 指示 inode 结构 是 
活路 的 ， 处 于 使 用 中 。aufs_get_inode 的 代码 如 代码 清单 2-22 所 示 。 


代码 清单 2-22 aufs_get_inode 函数 





static struct inode *aufs_get_inode (struct super block *sb, int mode, dev_t dev) 
{ 
/* 申请 一 个 inode 结构 */ 


struct inode *inode = new inode(sb); 


if (inode) { 

inode->i_mode = mode; 

inode->i_uid = current->fsuid; 

inode->i_gid = current->fsgid; 
blksize = PAGE CACHE SIZE; 
_blocks = 0; 
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inode->i atime = inode->i mtime = inode->i_ctime = CURRENT TIME; 
switch (mode & S_IFMT) { 
default: 
init_special_inode (inode, mode, dev); 
break; 
case S_IFREG: 
printk("creat a file \n"); 
break; 
case S_IFDIR: 
inode->i_op = &simple dir_inode_operations; 
inode->i_fop = ssimple dir operations; 
printk("creat a dir fle \n"); 


inode->i_nlinkt+; 
break; 
1 
} 
return inode; 
} 





可 以 看 到 ，inode 结构 的 用 户 ID 和 组 ID 分 别 赋值 为 当前 进程 的 文件 系统 用 户 ID 和 组 
ID。 代 码 中 的 current 是 内 核定 义 的 一 个 宏 ， 它 的 作用 是 获得 当前 进程 的 结构 指针 。 

aufs_get_inode 要 根据 inode 的 类 型 ， 设 置 不 同 的 操作 函数 。 对 于 特殊 的 inode， 比 如 块 
设备 文件 或 者 字符 设备 文件 ， 调 用 init_special_inode 赋值 。 对 于 目录 文件 ， 分 别 赋值 i_op 和 
i_fop。 

目前 为 止 ， 整 个 aufs 文件 系统 的 代码 ， 已 经 为 每 个 文件 和 目录 都 创建 了 dentry 结构 ， 同 时 
为 每 个 文件 和 目录 创建 了 inode 结构 。 这 些 文件 和 目录 的 dentry 结构 层 层 链接 ， 已 经 在 内 核 形 
成 了 一 颗 dentry 树 。 但 是 这 颗 树 还 不 能 被 访问 ， 要 真正 使 用 起 来 ， 还 需要 挂 载 到 根 文件 系统 。 


2.3.3 文件 系统 的 挂 载 过 程 


挂 载 ( mount) 做 了 什么 事情 ?从 理论 上 推断 ， 系 统 本 身 也 有 一 个 文件 目录 树 ， 如 果 把 
aufs 创建 的 dentry 树 绑 定 到 系统 本 来 的 dentry 树 上 并 建立 链接 ， 就 可 以 从 原先 的 系统 树 遍历 
到 aufs 的 dentry 树 了 。 这 就 是 mount 过 程 。 

执行 文件 系统 的 mount 命令 ， 要 指定 一 个 源 文件 系统 和 一 个 目的 文件 系统 。 同 时 要 为 目 
的 文件 系统 指定 一 个 目录 ， 源 文件 系统 就 挂 载 到 目的 文件 系统 的 这 个 目录 下 ， 这 个 目录 称 为 
挂 载 点 。 一 般 源 文件 系统 要 指定 设备 名 ， 这 个 设备 就 是 源 文件 系统 所 存在 的 设备 。 因 为 aufs 
文件 系统 只 存在 于 内 存 ， 并 不 存在 于 硬盘 设备 ， 所 以 aufs 不 用 指定 设备 名 。 

文件 系统 挂 载 通过 系统 调用 sys_mount 来 执行 ，sys_mount 又 调用 do_mount。do_mount 
首先 获得 挂 载 点 目录 的 dentry 结构 以 及 目的 文件 系统 的 vfsmount 结构 ， 这 些 信息 保存 在 一 
个 nameidata 结构 中 。 然 后 根据 mount 选项 调用 不 同 的 函数 执行 mount。 因 为 aufs 文件 系统 
第 一 次 执行 mount， 所 以 调用 的 是 do_new_mount 函数 ， 该 函数 执行 了 mount 的 大 部 分 事情 ， 
它 的 代码 如 代码 清单 2-23 所 示 - 


2.3 从 代码 层次 深入 分 析 文件 系统 


代码 清单 2-23 do_new_mount 函数 
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static int do_new_mount (struct nameidata *nd, char *type, int flags, 
int mnt flags, char *name, void *data) 


struct vfsmount *mnt; 


if (!type || !memchr(type, 0, PAGE_SIZE)) 
return -EINVAL; 


/* we need capabilities... */ 
if (!capable (CAP_SYS_ADMIN)) 
return -EPERM; 
mnt ~ do_kern_mount (type, flags, name, data); 
if (IS_ERR(mnt)) 
return PTR_ERR (mnt)7 


return do_add_mount (mnt, nd, mnt_flags, NULL); 





do_kern_mount 前 文 已 经 分 析 了 ， 目 的 是 创建 超级 块 对 象 和 root dentry 和 inode。 因 为 


aufs 文件 系统 初始 化 时 已 经 创建 了 这 些 对 象 ， 所 以 得 到 的 是 已 经 存在 的 对 象 。 


do_add_mount 把 源 文件 系统 挂 载 到 目的 文件 系统 ， 它 的 代码 如 代码 清单 2-24 所 示 。 
代码 清单 2-24 do_add_mount 函数 





int do_add mount (struct vfsmount *newmnt, struct nameidata *nd, 


1093 int mnt_flags, struct list_head *fslist) 
1094 { 

1095 int err; 

1096 


1097 down_write(&namespace_sem); 
1098 /* Something was mounted here while we slept */ 
1099 while (d_mountpoint (nd->dentry) && follow down(énd->mnt, énd->dentry)) 
1100 : 
1101 err = -EINVAL; 
/* 检查 namespace 是 否 当前 进程 的 namespace*/ 
1102 if (!check_ mnt (nd->mnt)) 
1103 goto unlock; 
1104 
1105 /* Refuse the same filesystem on the same mount point */ 
1106 err = -EBUSY; 
1107 if (nd->mnt->mnt_sb -= newmnt->mnt_ sb 55 





1108 nd->mnt->mnt_root == nd->dentry) 
1109 goto unlock; 
1110 


1111l err = -EINVAL; 
1112 if (S_ISLNK (newmnt->mnt_root->d_inode->i_mode)) 
1113 goto unlock; 
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do_add_mount 函数 第 一 部 分 是 检查 参数 。 

第 1099 行 检查 挂 载 点 目录 本 身 是 否 为 挂 载 点 。 如 果 挂 载 点 目录 本 身 已 经 被 挂 载 了 (这 通 
过 检查 挂 载 点 目录 的 dentry 结构 的 d_mounted 成 员 是 否 不 为 0 实现 的 )， 说 明 挂 载 点 目录 已 
经 被 挂 载 ， 那 么 要 调用 follow_down 函数 来 找到 真正 的 dentry 结构 和 vfsmount 对 象 。follow_ 
down 的 查找 过 程 后 文 还 会 分 析 到 ， 此 处 略 过 。 

第 1107 行 检查 同一 个 文件 系统 是 否 已 经 在 挂 载 点 目录 挂 载 了 ， 如 果 已 经 挂 载 ， 要 返回 


错误 。 


第 1112 行 检查 源 文 件 系统 根 inode( 根 dentry 的 inode) 是 否 符号 链接 ， 如 果 是 符号 链接 ， 
则 返回 错误 。 


1115 
1116 
1117 
1118 
1119 
1120 
1121 
1122 
1123 
1124 
1125 
1126 


newmnt->mnt_flags = mnt_flags; 
if ((err = graft_tree(newmnt, nd))) 
goto unlock; 
/* 当前 场景 的 fslist 为 NULL, 跳 过 */ 
if (fslist) { 
/* add to the specified expiration list */ 
spin_lock(svfsmount_lock); 
list_add_tail (énewmnt->mnt_expire, fslist); 
spin_unlock (svfsmount_lock); 
} 
up_write (Snamespace_ sem); 
return 0; 


graft_tree 函数 把 aufs 的 dentry 树 和 目的 文件 系统 的 dentry 树 嫁接 到 一 起 ， 它 的 代码 如 


代码 清单 2-25 所 示 。 
代码 清单 2-25 graft_tree 函数 
855 static int graft tree(struct vfsmount *mnt，struct nameidata *nd) 
856 { 
857 int err; 
858 if (mnt->mnt sb->s flags 5 MS_ NOUSER) 
859 return -EINVAL; 
860 
861 if (S_ISDIR(nd->dentry->d_inode->i_mode) != 
862 S_ISDIR(mnt->mnt_root->d inode->i_mode)) 
863 return -ENOTDIR; 
864 
865 err = -ENOENT; 
866 mutex_lock(snd->dentry->d_inode->i_mutex); 
/* 检查 挂 载 点 目录 是 否 是 废弃 的 目录 */ 
867 if (IS_DEADDIR(nd->dentry->d_inode)) 
868 goto out_unlock; 
Bt /* 省 略 无 关 代码 */ 
874 err = -ENOENT; 
875 if (IS_ROOT (nd->dentry) || !d_unhashed (nd->dentry)) 
876 err = attach recursive mnt (mnt, nd, NULL); 
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第 858 行 判断 源 文件 系统 是 否 可 以 被 挂 载 。Linux 系统 的 一 些 特殊 的 文件 系统 是 不 能 被 
挂 载 的 ， 比 如 pipefs 文件 系统 、 块 设备 文件 系统 (参见 第 9 章 ) 等 。 

第 861 行 检查 挂 载 点 目录 是 否 是 一 个 目录 文件 ， 以 及 源 文件 系统 的 根 inode 是 否 目录 文 
件 。 这 两 者 都 应 该 是 目录 才能 执行 挂 载 操作 ， 如 果 不 是 目录 则 返回 错误 。 

第 875 行 检查 挂 载 点 是 否 有 效 。 有 效 的 条 件 是 挂 载 点 目录 是 一 个 根 目录 ， 或 者 挂 载 点 目 
录 被 缓存 在 dentry cache 中 。 这 是 因为 文件 系统 根 目录 没有 被 缓存 在 dentry cache 中 ， 所 以 
做 这 一 步 检查 。 检 查 通过 ， 调 用 attach_recursive_mnt 函数 执行 挂 载 操 作 。 注 意 ， 此 时 mnt 参 
数 是 aufs 文件 系统 的 vfs_mount 对 象 ， 作 为 源 文件 系统 ; 而 nd 参数 保存 了 目的 文件 系统 的 
dentry 和 vfsmount 对 象 ， 作 为 目的 点 。attach_recursive_mnt 的 代码 如 代码 清单 2-26 所 示 。 


代码 清单 2-26 attach_recursive_mnt 函数 





static int attach recursive mnt (struct vfsmount *source mnt, 
struct nameidata *nd, struct nameidata *parent_nd) 
{ 
LIST_HEAD(tree_list); 
struct vfsmount *dest_ mnt ~ nd->mnt; 
struct dentry *dest_dentry = nd->dentry; 
struct vfsmount *child, *p; 


if (propagate_mnt (dest_mnt, dest_dentry, source_mnt, &tree_list)) 
return -EINVAL; 
/* 处 理 shared*/ 
if (IS_MNT_SHARED(dest mnt)) { 
for (p = source_mnt; p; p = next_mnt(p, source_mnt)) 
set_mnt_shared (p); 
) 


spin_lock(&vfsmount_lock); 

/* 当前 场景 parent_nd 为 空 ， 跳 过 */ 

if (parent nd) { 
detach_mnt (source_mnt, parent_nd); 
attach mnt (source_mnt, nd); 
touch_namespace (current->namespace); 

} else { 
mnt_set_mountpoint (dest_mnt, dest_dentry, source mnt); 
commit_tree(source_mnt); 

} 


list_for each entry safe(child, p, étree_list, mnt_hash) { 
list_del_init (schild->mnt_hash) 1; 
commit_tree(child); 

i 

spin_unlock (svfsmount_lock); 

return 07 
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mnt_set_mountpoint 函数 里 面 ， 目 的 dentry 的 d_mounted 要 加 1， 这 是 将 来 判断 该 dentry 
是 否 是 为 挂 载 点 的 依据 。 同 时 源 文件 系统 vfsmout 对 象 的 mnt_mountpoint 指向 目的 dentry。 
commit_ tree 用 来 把 源 vfsmount 提交 到 全 局 hash 链表 ， 它 的 代码 如 代码 清单 2-27 所 示 。 


代码 清单 2-27 commit_tree 函数 





193 static void commit_tree(struct vfsmount *mnt) 


194 人 
195 struct vfsmount *parent = mnt->mnt_parent; 
196 struct vfsmount *m; 

197 LIST_HEAD (head); 

198 struct namespace *n = parent->mnt_namespace; 
199 

200 BUG_ON (parent == mnt); 

201 

202 list_add_tail(&head, émnt->mnt_list); 

203 list_for each entry(m, shead, mnt_list) 

204 m->mnt_namespace = ni 

205 list_splice (shead, n->list.prev); 

206 /* 源 vfsmount 对 象 链接 到 mount hash 表 */ 

207 list_add tail(émnt->mnt_hash, mount_hashtable + 
208 hash (parent, mnt->mnt_mountpoint)); 
/* 源 vfsmount 对 象 链接 到 父 vfsmount 对 象 的 链表 */ 

209 list_add_tail (émnt->mnt_child, éparent->mnt_mounts); 
210 touch_namespace (n); 
211 } 





commit_tree 从 202 行 到 205 行 目的 是 把 源 文件 系统 的 vfsmount 对 象 链接 到 namespace 
的 链表 尾部 。 链 接 之 前 ， 第 204 行 设置 vfsmount 对 象 的 namespace 为 父 对 象 的 namespace。 

执行 到 最 后 ，mount 实际 上 把 aufs 的 vfsmount 对 象 链接 到 一 个 全 局 hash 表 ， 同 时 也 链 
接 到 父 vfsmount 对 象 的 链表 头 。 而 目的 dentry 指向 的 就 是 目的 文件 系统 的 au 目录。 这 个 
dentry 结构 的 d_mounted 成 员 要 加 1， 这 是 判断 这 个 目录 是 否 是 挂 载 点 的 依据 。 在 文件 打开 
的 过 程 需 要 判断 目录 是 否 挂 载 点， 检查 的 依据 就 是 这 个 参数 。 

代码 分 析 到 现在 ,已 经 大 量 使 用 了 双向 链表 list 和 hash list。 理 解 这 些 基础 的 数据 结构 是 
阅读 代码 的 基础 条 件 。 


2.3.4 文件 打开 的 代码 分 析 

通过 前 面 代码 的 工作 ， 源 文件 系统 的 vfsmount 对 象 已 经 链接 到 目的 文件 系统 的 vfsmount 
对 象 ， 同 时 也 链接 到 全 局 的 hash 表 。 

1. sys_open 函数 

打开 一 个 文件 ， 是 通过 内 核 提供 的 系统 调用 sys_open 实现 的 。 我 们 来 分 析 一 下 sys_open 
函数 ， 它 的 代码 如 代码 清单 2-28 所 示 。 
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代码 清单 2-28 sys_open 函数 
asmlinkage long sys_open(const char _user *filename, int flags, int mode) 


{ 
long ret; 





if (force 0o_largefile()) 
flags |= O_LARGEFILE; 


/*AT_FDCWD 指示 文件 的 查找 位 置 ， 后 面 要 用 到 */ 
ret = do_sys_open (AT_FDCWD, filename, flags, mode); 


/* 禁止 编译 器 的 尾部 调用 优化 */ 
/* avoid REGPARM breakage on x86: */ 


prevent_tail_call (ret); 
return ret; 





sys_open 是 do_sys_open 的 封装 函数 。 函 数 do_sys_open 的 代码 如 代码 清单 2-29 所 示 。 
代码 清单 2-29 do_sys_open 函数 


long do_sys_open (int dfd，const char _ user *filename, int flags, int mode) 
{ 





char *tmp ~ getname (filename); 
int fd = PTR_ERR (tmp) 7 


if (!IS_ERR(tmp)) { 
fd ~ get_unused_fd(); 
if (fd >= 0) { 
struct file *f = do_filp_open (dfd, tmp, flags, mode); 
if (IS_ERR(£)) 1 
put_unused_fd(fd); 
fd ~ PTR_ERR(E) 7 
} else { 
fsnotify_open(f->f_dentry); 
/* 安装 文件 指针 到 fd 数组 */ 
fd_install (fd, £); 





函数 do_sys_open 首先 把 文件 名 从 用 户 态 复制 到 内 核 ， 然 后 获得 一 个 未 使 用 的 文件 号 ， 
最 后 调用 do_filp_open 执行 文件 打开 的 过 程 。 


2. do_filp_open 函数 
函数 do_filp_open 代码 如 代码 清单 2-30 所 示 。 


代码 清单 2-30 do_filp_open 函数 


static struct file *do filp open(int dfd，const char *filename，int flags, int mode) 
{ 

int namei flags, error; 

struct nameidata nd; 
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/* 设置 文件 的 标志 ， 为 何 要 重新 设置 ? 看 英文 注释 ， 这 是 因为 内 部 的 标志 和 外 部 定义 不 一 致 */ 
namei flags = flags; 
if ((namei flags+1) & O_ACCMODE) 

namei_flags++; 


error = open_namei (dfd, filename, namei flags, mode, &nd); 
if (!error) 
return nameidata to_filp(snd, flags); 


return ERR_PTR(error); 
} 





do_filp_open 主要 执行 了 两 步 。 

口 第 一 步 是 open_namei， 它 的 作用 是 沿 着 要 打开 文件 名 的 整个 路 径 ， 一 层 层 解析 路 
径 ， 最 后 得 到 文件 的 dentry 和 vfsmount 对 象 ， 保 存 到 一 个 nameidata 结构 中 。 这 个 
nameidata 结构 就 是 open_namei 的 输入 参数 nd。 

口 第 二 步 是 nameidata_to_filp 函数 ， 它 的 作用 是 根据 第 一 步 获得 的 nameidata 结构 ， 初 始 
化 一 个 file 对 象 。 

3. open_namei 函数 

我 们 首先 从 open_namei 函数 开始 分 析 ， 它 的 代码 如 代码 清单 2-31 所 示 。 

代码 清单 2-31 open_namei 函数 


int open_namei (int dfd, const char *pathname, int flag, 
int mode, struct nameidata *nd) 





{ 
int acc_mode, error; 
struct path path; 
struct dentry *dir; 
int count = 0; 


acc_mode = ACC_MODE (flag); 


/* 检查 写 权限 */ 
/* O_TRUNC implies we need access checks for write permissions */ 
if (flag & 0_TRUNC) 

acc_mode |= MAY_WRITE; 


/* Allow the LSM permission hook to distinguish append 
access from general write access. */ 
if (flag & 0O_APPEND) 
acc_mode |= MAY APPEND; 





open_namei 函数 第 一 部 分 是 设置 权限 参数 。 如 果 打 开 文 件 时 带 有 O_TRUNC 标志 ,说 明 
要 修改 文件 的 长 度 ， 对 文件 的 操作 模式 要 加 上 可 写 权限 ; 如 果 打 开 文 件 时 带 有 O_APPEND 
标志 ， 对 文件 的 操作 模式 要 加 上 MAY_APPEND 权限 。MAY _APPEND 也 可 当做 可 写 权限 
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(MAY_WRITE) 的 一 种 ,但 是 把 它 专门 选 出 来 ， 作 为 一 个 特殊 的 标识 。 


J* 
* The simplest case - just a plain lookup. 
8 
if (!(flag & O_CREAT)) { 

error = path_lookup_open(dfd, pathname, lookup_flags (flag), 

nd, flag); 
if (error) 
return error; 

goto ok; 

上 


Jr 
* Create - we need to know the parent. 
sy 
error = path_lookup_create (dfd, pathname, LOOKUP_PARENT, nd,flag, mode); 
if (error) 

return error; 


open_namei 函数 第 二 部 分 是 两 种 打开 文件 的 模式 。 打 开 文 件 的 时 候 ， 如 果 文 件 不 
存在 ， 可 以 为 用 户 创建 一 个 文件 ， 这 是 通过 文件 的 O_CREAT 标志 来 控制 的 。 如 果 不 
带 有 O_CREAT 标志 ， 不 需要 创建 文件 ， 那 么 调用 path_lookup_open 函数 。 如 果 带 有 
O_CREAT 标志 ， 说 明 需 要 创建 文件 ， 则 调用 path_lookup_create 函数 (调用 函数 时 带 有 
LOOKUP_PARENT 标志 )。 

path_lookup_create 函数 不 处 理 最 终 目标 文件 ， 它 只 查找 到 文件 所 在 目录 就 结束 查找 过 程 
了 ， 等 函数 返回 后 ， 再 检查 最 终 目 标 文件 是 否 存在 。 


As 
* We have the parent and last component. First of all, check 
* that we are not asked to creat(2) an obvious directory - that 
* will not do. 
“/ 
error = -EISDIR; 
/* 检查 last_type 和 文件 名 */ 
if (nd->last_type != LAST_NORM || nd->last.name[nd->last.len]) 
goto exit; 


/* 在 父 dentry 里 面 查找 是 否 有 nd->last 名 字 的 文件 ， 没 有 则 创建 dentry 对 象 
* 里 面 调用 了 cached_lookup， 这 个 函数 前 面 分 析 过 了 */ 

dir = nd->dentry; 

nd->flags &= ~LOOKUP_PARENT; 

mutex_lock (sdir->d_ inode->i mutex); 

path.dentry = lookup_hash (nd); 

path.mnt = nd->mnt; 


open_namei 函数 第 三 部 分 首先 检查 path_lookup_create 函数 的 返回 值 。 第 一 种 情况 
是 检查 返回 类 型 。 返 回 类 型 有 很 多 种 ， 可 以 是 LAST_NORM、LAST_DOTDOT、LAST_ 
DOTDOT 等 。 如 果 返 回 类 型 不 等 于 LAST_NORM， 说明 文件 名 字 是 点 “.” 或 者 
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则 直接 返回 。 

另外 一 种 情况 是 文件 名 是 一 个 目录 ， 也 不 处 理 ， 直 接 返 回 。 如 果 文 件 名 是 目录 ， 那 么 文 
件 名 的 最 后 一 个 字符 是 斜 杠 符 “/"， 而 普通 文件 的 最 后 一 个 字符 不 可 能 是 斜 杠 符 ， 因 此 目录 
文件 的 长 度 比 nd 指示 的 文件 名 长 度 多 出 来 一 个 字符 ， 通 过 检查 最 后 一 个 字符 是 否 为 空 判断 
文件 是 否 是 目录 。 文 件 名 和 长 度 的 处 理 在 本 节 的 _link_path_walk 函数 继续 分 析 。 

如 果 检 查 通 过 ， 返 回 的 nd 变量 的 dentry 成 员 是 文件 所 在 目录 的 dentry， 调 用 lookup_ 
hash 查找 目标 文件 的 dentry， 结 果 分 两 种 情况 。 一 种 是 文件 存在 ， 可 以 找到 ， 一 种 是 文件 不 
存在 ， 这 种 情况 要 为 文件 创建 一 个 dentry 结构 。lookup_hash 函数 调用 了 _ lookup_hash 在 
dentry cache 执行 查找 过 程 。_lookup_hash 函数 在 aufs 文件 系统 一 节 已 经 分 析 过 ， 此 处 略 过 。 


do_last: 
of* 省略 无 关 代码 */ 
/"d-inode 为 空 ， 说 明文 件 不 存在 ， 需 要 创建 inode*/ 
/* Negative dentry, just create the file */ 
if (!path.dentry->d inode) { 
if (!IS_POSIXACL (dir->d_inode)) 
mode 6= ~current->fs->umask; 
error = vfs_create (dir->d_inode, path.dentry, mode, nd); 
mutex_unlock (sdir->d_inode->i_mutex); 
dput (nd->dentry) ; 
nd->dentry ~ path.dentry; 
if (error) 
goto exit; 
/* Don't check for write permission, don't truncate */ 
acc_mode = 0; 
flag 5= ~O_TRUNC; 


goto ok; 
! 
J» 
* It already exists. 
“/ 


mutex_unlock (&dir->d inode->i mutex); 
audit_inode_update (path.dentry->d_inode); 


error = -EEXIST; 
if (flag & O_EXCL) 

goto exit_dput; 

/* 检查 是 否 一 个 mount 点 ， 如 果 是 mount 点 需要 切换 到 源 mount 点 */ 

if (_ follow mount (spath)) { 

error = -ELOOP; 

if (flag & O_NOFOLLOW) 

goto exit_dput; 

} 


error = -ENOENT; 
if (!path.dentry->d_inode) 
goto exit_dput; 
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/* 是 否 一 个 符号 链接 ， 是 则 跳 到 do_1ink 分 支 处 理 */ 


if (path.dentry->d_inode->i_op 5&5 path.dentry->d_inode->i op->follow_link) 
goto do_link; 


path_to_nameidata (spath, nd); 

error = -EISDIR; 
/* 如 果 是 目录 ， 出 错 退出 */ 

if (path.dentry->d inode 65 S$_ISDIR(path.dentry->d inode->i_mode)) 
goto exit; 

ok: 

/* 最 后 统一 的 open 处 理 */ 

error = may_open(nd, acc_mode, flag); 


open_namei 函数 第 四 部 分 首先 检查 dentry 结构 的 d_inode 成 员 。 如 果 成 员 为 空 ， 说 明文 
件 不 存在 ，dentry 是 函数 第 三 部 分 刚刚 创建 的 ， 因 此 d_inode 尚未 赋值 为 空 。 这 种 情况 下 ， 
调用 vfs_create 创建 文件 ， 然 后 进入 ok 分 支 返回 。 

如 果 成 员 不 为 室 ， 说 明文 件 已 经 存在 ， 随 后 要 检查 文件 为 挂 载 点 或 者 符号 链接 的 情况 。 
这 两 种 情况 在 本 节 后 面 的 _ link_path_walk 函数 也 要 处 理 ， 在 后 面 代码 中 一 并 分 析 。 


do_link: 
/1* 如 果 是 符号 链接 ， 继 续 处 理 ， 找 到 符号 链接 的 目的 文件 */ 
error ~ _ do_follow link(spath, nd); 
if (nd->last.name[nd->last.len]) { 
_putname (nd->last .name); 
goto exits; 
} 
error = -ELOOP; 
if (count++==32) { 
__putname (nd->last .name); 
goto exits; 
} 
dir = nd->dentry; 
mutex_lock (sdir->d_inode->i_mutex); 
path.dentry = lookup_hash (nd); 
path.mnt = nd->mnt; 
_putname (nd->last.name); 
goto do_ last; 
} 


open_namei 函数 第 五 部 分 是 进行 符号 链接 的 处 理 。 调 用 _ do_follow_link 为 符号 链接 文 
件 找到 它 的 真实 文件 ， 然 后 再 执行 真实 文件 的 查找 过 程 。 因 为 符号 链接 可 以 一 层 层 链接 ， 造 
成 无 限 的 循环 ， 所 以 需要 设置 一 个 变量 count 计算 符号 链接 的 递归 次 数 。 超 过 设 定 值 32 以 上 
的 ， 就 不 再 解析 ， 而 是 返回 错误 。 


4. path_lookup_create 和 _path_lookup_intent_open 函数 
path_lookup_create 函数 顾名思义 ， 它 是 沿 着 文件 的 整个 路 径 寻 找 。 文 件 的 路 径 是 包含 斜 
杠 符 “/” 的 一 串 字符 ，path_lookup_create 要 对 字符 进行 分 割 ， 分 离 出 每 层 路 径 的 目录 名 和 
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最 终 的 文件 名 ， 然 后 对 目录 和 最 终 的 文件 进行 查找 。 

path_lookup_open 和 path_lookup_create 都 封装 了 _path lookup_intent open 函数 ， 不 
同 之 处 只 是 path_lookup_create 的 参数 带 有 LOOKUP_CREATE 标志 ， 所 以 只 分 析 _path_ 
lookup_intent_open 函数 就 可 以 了 ， 如 代码 清单 2-32 所 示 。 


代码 清单 2-32 __path_lookup_intent_open 函数 


static int _ path lookup_intent open(int dfd, const char *name, 
unsigned int lookup flags, struct nameidata *nd, 
int open flags, int create_mode) 
{  /* 创建 一 个 新 的 filp 对 象 “/ 
struct file *filp = get_empty filp(); 
int err; 





if (filp == NULL) 
return -ENFILE; 

nd->intent.open file = filp; 

nd->intent.open.flags = open_flags; 

nd->intent .open.create mode = create_mode; 

err = do_path_lookup (dfd, name, lookup flags|LOOKUP_OPEN, nd); 





5. do_path_lookup 函数 
__path_lookup_intent_open 函数 给 nd 参数 赋值 之 后 ， 调 用 do_path_lookup 执行 路 径 查找 
工作 ， 它 的 代码 如 代码 清单 2-33 所 示 。 
代码 清单 2-33 do_path_lookup 函数 


/* Returns 0 and nd will be valid on success; Retuns error, otherwise, */ 
static int fastcall do_path_lookup (int dfd, const char *name, 
unsigned int flags, struct nameidata *nd) 








…/* 省 略 参数 定义 代码 */ 

nd->last_type = LAST ROOT; /* if there are only slashes... */ 
nd->flags = flags; 

nd->depth = 0; 


和 
read_lock (6current->fs->lock): 
if (current->fs->altroot && !(nd->flags & LOOKUP_NORLT)) { 
/es7 
nd->mnt = mntget (current->fs->altrootmnt); 
nd->dentry = dget (current->fs->altroot); 
read_unlock (gcurrent->fs->lock); 
if (_ emul lookup_ dentry (name,nd)) 
goto out; /* found in altroot */ 
read lock(&current->fs->lock); 





} 
/* 查找 的 dentry 对 象 和 vfsmount 对 象 是 文件 系统 的 root dentry 和 root vfsmount*/ 


nd->mnt = mntget (current->fs->rootmnt); 
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nd->dentry = dget (current->fs->root); 
read_unlock (gcurrent->fs->lock); 





do_path_lookup 函数 的 第 一 部 分 是 检查 文件 名 字 是 否 用 斜 杆 符 “/” 开 始 ， 以 斜 杠 符 开 
始 ， 说 明文 件 的 查找 是 从 根 目录 开始 ， 那 么 起 始 的 dentry， 也 就 是 nd 变量 的 dentry 要 设置 
为 当前 进程 文件 系统 的 根 dentry，nd 变量 的 vfsmount 对 象 要 设置 为 当前 进程 文件 系统 的 根 
vfsmount 对 象 。 当 前 进程 文件 系统 是 一 个 和 进程 有 关 的 概念 ， 每 个 进程 初始 化 的 时 候 ， 都 
要 为 它 设置 当前 文件 系统 。 当 前 文件 系统 包含 了 三 个 dentry， 它 们 分 别 指向 根 dentry 、 当 前 
dentry ( 即 pwd 命令 显示 的 当前 目录 ) 和 替换 根 dentry。 

如 果 当 前 进程 文件 系统 存在 替换 根 dentry 且 打 开 文 件 的 时 候 不 设置 LOOKUP_NOALT 
标志 ， 那 么 nd 变量 的 dentry 要 设置 为 当前 进程 文件 系统 的 替换 根 dentry, nd 变量 的 
vfsmount 对 象 要 设置 为 当前 进程 文件 系统 的 替换 根 vfsmount 对 象 。 

} else if (dfd == RAT_EFDCWD) { 

/* 如 果 是 NT_FDCND， 说 明 要 在 进程 的 当前 路 径 查找 文件 ， 那 么 dentry 就 是 进程 当前 的 dentry 对 象 */ 
read_lock (scurrent->fs->lock); 
nd->mnt = mntget (current->fs->pwdmnt); 
nd->dentry = dget (current->fs->pwd); 
read_unlock (scurrent->fs->lock); 


do_path_lookup 第 二 部 分 检查 AT_FDCWD 标志 。 如 果 文 件 名 不 是 用 斜 杠 符 开 始 而 且 设 
置 了 AT_FDCWD 标志 ， 意 味 着 文件 的 搜索 路 径 不 是 从 进程 文件 系统 的 根 路 径 开始 ， 而 是 
从 进程 当前 路 径 开 始 。 所 以 设置 nd 变量 的 dentry 为 进程 文件 系统 的 当前 dentry，nd 变量 的 
vfsmount 对 象 要 设置 为 进程 文件 系统 的 当前 vfsmount 对 象 。 


) else { 
struct dentry *dentry; 





file ~ fget_light (dfd, sfput_needed); 
retval = -EBADF; 
if (!file) 

goto out_ fail; 


dentry = file->f_dentry; 
nd->mnt ~ mntget (file->f_vfsmnt); 
nd->dentry = dget (dentry); 


fput_light (file, fput_needed); 
} 
current->total_link count = 0; 
retval = link_path_walk(name, nd); 


do_path lookup 第 三 部 分 的 前 提 是 前 两 个 部 分 的 条 件 都 不 成 立 ， 这 个 文件 已 经 打开 过 ， 
输入 参数 是 文件 的 ID 号 。 这 种 情况 是 在 进程 的 已 打开 文件 结构 里 面 根据 用 户 态 的 ID 号 查找 
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文件 。 这 种 场景 不 是 我 们 研究 的 情况 ， 此 处 略 过 。 


6. link_path_walk 函数 
当 nd 参数 设置 了 正确 的 dentry 和 vfsmount 对 象 后 ， 调 用 link_path_walk 执行 路 径 的 查 
找 。link_path_walk 执行 了 两 次 查找 的 过 程 ， 如 代码 清单 2-34 所 示 。 


代码 清单 2-34 link_path_walk 函数 





int fastcall link_path_walk(const char *name, struct nameidata *nd) 
{ 

struct nameidata save = *nd; 

int result; 


/* make sure the stuff we saved doesn't go away */ 
/* 增加 mnt 和 dentry 的 引用 计数 */ 

dget (save.dentry); 

mntget (save.mnt); 


result = _ link path walk(name, nd); 
if (result == -ESTALE) { 

“nd ~ save; 

dget (nd->dentry); 

mntget (nd->mnt) 7 

nd->flags |= LOOKUP_REVAL; 

result = _link path_walk(name, nd); 
} 


dput (save .dentry); 
mntput (save -mnt) 7 


return result; 
} 





link_path_walk 两 次 执行 了 _link_path_walk 函数 。 原 因 是 第 一 次 查找 有 可 能 失败 , 文 
件 系统 返回 了 ESTALE 失败 标识 码 。 这 种 情况 下 nd 的 flag 成 员 要 加 上 LOOKUP_REVAL 标 
志 ， 作 用 是 不 再 依赖 dentry cache， 而 是 强迫 文件 系统 执行 自己 的 查找 功能 。 对 于 硬盘 文件 系 
统 ， 文 件 系统 自己 的 查找 功能 通常 要 读 硬 盘 上 文件 系统 的 元 数据 来 获取 文件 信息 。 


7. _link_path_walk 函数 
__link_path_walk 真正 对 文件 的 整个 路 径 名 做 循环 查找 ， 需 要 一 层 层 解析 文件 的 路 径 ， 
对 每 层 路 径 进行 查询 ， 如 代码 清单 2-35 所 示 。 


代码 清单 2-35 _link_path_walk 函数 





static fastcall int _ link path walk(const char * name, struct nameidata *nd) 
* 

struct path next; 

struct inode *inode; 

int err; 
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unsigned int lookup flags = nd->flags; 


while (*name=="'/") 
name+ts 

if (!*name) 
goto return_reval; 


inode = nd->dentry->d_inode; 
if (nd->depth) 
lookup_flags = LOOKUP FOLLOW | (nd->flags & LOOKUP_CONTINUE); 





link_path_walk 函数 非常 复杂 ， 我 们 把 它 分 为 多 个 部 分 ， 逐 一 讲解 。 

第 一 部 分 是 将 文件 名 字符 串 的 最 前 面 的 斜 杠 符 去 掉 。 因 为 斜 杠 符 可 能 是 多 个 ， 所 以 有 一 
个 while 循环 。 然 后 检查 文件 符号 链接 的 深度 。 因 为 文件 可 以 是 一 个 符号 链接 ， 符 号 链接 又 
可 以 指向 一 个 符号 链接 ， 如 此 递归 可 能 造成 死 循 环 。 每 次 处 理 符号 链接 的 时 候 ， 结 构 nd 的 
depth 成 员 加 一 ， 如 果 超过 一 个 限 值 ， 就 不 再 处 理 了 ， 避 免 无 限 的 符号 链接 。 


/* At this point we know we have a real path component. */ 
/* 这 个 循环 丧 历 名 字 字符 的 每 一 轮 。 就 是 以 “/ ”字符 分 隔 的 每 一 层 字符 */ 
for(2;) { 
unsigned long hash; 
struct qstr this; 
unsigned int c; 
nd->flags |= LOOKUP_CONTINUE; 
/* 权限 检查 */ 
err = exec_permission_ lite(inode, nd); 
if (err == -EAGAIN) 
err = vfs permission(nd, MAY _ EXEC); 
if (err) 
break; 


/* 这 里 计算 name 的 hash 值 ， 如 果 碰 到 “/ ”字符 ， 代 表 这 一 办 的 名 字 到 了 结束 位 置 */ 
this.name = name; 
c= *(const unsigned char *)name; 


hash = init_name_hash(); 
do 1 
ame++ 
hash = partial name_hash(c, hash); 
c = *(const unsigned char *)name; 
} while (c ss (ce 1= 1/)); 
this.len = name - (const char *) this.name; 
this.hash ~ end name hash (hash); 


/* remove trailing slashes? */ 
/* 已 经 是 最 后 一 轮 的 名 字 字 符 了 ， 转 到 last_component 处 理 */ 
if (!c) 

goto last_component; 


/* 最 后 的 字符 是 个 “/"。 转 到 last_with_slashes 处 理 */ 
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while (*++name == '/'); 
if (!*name) 
goto last with slashes; 


_link_path_walk 函数 第 二 部 分 是 一 个 循环 ， 作 用 是 将 文件 名 字符 串 分 离 。 文 件 名 字符 
串 是 一 个 长 的 路 径 ， 每 一 层 目录 之 间 用 斜 杠 符 分 隔 。 这 部 分 代码 逐个 比较 字符 ， 如 果 碰 到 了 
斜 杠 符 ， 意 味 着 斜 杠 符 之 前 的 字符 串 是 一 个 目录 名 。 对 目录 名 计算 hash 值 ， 之 后 进行 目录 名 
的 查找 工作 。 计 算 hash 值 的 过 程 在 aufs 文件 系统 的 例子 中 已 经 分 析 过 ， 不 再 歼 述 。 如 果 目 
录 名 查找 成 功 ， 则 进入 下 一 轮 循 环 。 

循环 最 终 有 两 种 情况 ， 一 种 情况 是 得 到 了 最 终 的 目标 文件 名 ， 转 入 last_component 分 支 
处 理 ， 另 一 种 是 整个 文件 名 字符 用 的 是 一 个 斜 杠 符 结尾 的 ， 则 转 入 last_with_slashes 分 支 处 
理 。 这 两 个 分 支 的 名 字 其 实 就 说 明了 它们 各 自 的 功能 。 


J» 
+ "nand ".." are special - ".." especially so because it has 
* to be able to know about the current root directory and 
* parent relationships. 
*/ 
/* 如果 名 字 是 “.” 或 “,,"， 要 特殊 处 理 */ 
if (this.name[0] == '.') switch (this.len) { 
default: 
break; 
case 2: 
if (this.name[1] != '.') 
break; 
follow_dotdot (nd); 
inode = nd->dentry->d_inode; 
/* fallthrough */ 
case 1: 
continue; 





! 
/* 如 果 文件 系统 提供 了 自己 的 hash 函数 ， 则 使 用 它 计算 hash 值 */ 
if (nd->dentry->d_op 55 nd->dentry->d_op->d_hash) { 
err = nd->dentry->d_op->d_hash (nd->dentry, &this); 
if (err < 0) 
break; 
1 


__link_path_walk 函数 第 三 部 分 是 处 理 文件 名 中 特殊 的 点 (“ .”) 和 点 点 (“ ..” ) 字符 。 
文件 名 是 一 个 点 代表 自身 ,文件 名 是 两 个 点 代表 上 一 级 目录 。 所 以 文件 名 是 一 个 点 的 时 候 什 
么 也 不 做 ， 直 接 进 入 下 一 级 循环 ， 如 果 文件 名 是 两 个 点 ， 则 调用 follow_dotdot 寻找 当前 文件 
的 上 一 级 目录 。 


/* This does the actual lookups.. */ 
err = do_lookup(nd, sthis, énext); 
if (err) 

break; 
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err = -ENOENT; 
/*d_inode 是 所 查找 到 文件 的 inode， 如 果 为 空 ， 说 明 查找 失败 */ 
inode = next.dentry->d_inode; 
if (!inode) 
goto out_dput; 
err = -ENOTDIR; 
if (!inode->i_op) 
goto out_dput; 
/*inode 有 follow_link， 说 明 是 个 符号 链接 ， 要 特殊 处 理 ， 否 则 执行 path_to_nameidata*/ 
if (inode->i_op->follow link) { 
err = do_follow link(snext, nd); 
if (err) 
goto return err; 
err = -ENOENT; 
inode = nd->dentry->d_inode; 
if (linode) 
break; 
err = -ENOTDIR; 
if (!inode->i_op) 
break; 
) else 
path_to_nameidata (snext, nd); 
err = -ENOTDIR; 
if (linode->i_op->lookup) 
break; 
continue; 
/* here ends the main loop */ 


__link_path_walk 函数 第 四 部 分 调用 do_lookup 函数 执行 真正 的 查找 ， 查 找 的 结果 通过 一 
个 path 结构 变量 next 返回 。 
do_lookup 执行 的 是 最 终 目标 文件 的 目录 的 查找 ， 最 终 的 目标 文件 不 是 它 查找 ， 而 是 在 
last_component 分 支 中 执行 的 。 所 以 如 果 inode 不 具备 i_op 成 员 (目录 必须 有 该 成 员 )， 说 明 
该 inode 不 是 一 个 目录 ， 则 返回 ENOTDIR 错误 。 这 个 错误 的 英文 名 字 就 说 明了 错误 原因 。 
如 果 i_op 成员 具 备 follow_link 成 员 ， 说 明 inode 是 一 个 符号 链接 。 符 号 链接 必须 调用 
do_follow_link 找到 符号 链接 真正 指向 的 路 径 。 
last_with_slashes: 
/* 最 后 是 个 “/”， 说 明 是 个 目录 ， 设 置 标志 */ 
lookup flags 1= LOOKUP_FOLLOW | LOOKUP_DIRECTORY; 
last_component: 
9 7 尼 经 汉文 件 路 和 到 了 最 后 ， 就 是 说 找到 了 文件 本 身 */ 
/* Clear LOOKUP_CONTINUE iff it was previously unset */ 
nd->flags &= lookup flags | ~LOOKUP CONTINUE; 


if (lookup flags & LOOKUP_PARENT) 
goto lookup parent; 


/* 最 后 的 文件 名 字 是 “ . ”或 者 “. .”"， 要 特殊 处 理 */ 
if (this.name[0] -. ") switch (this.len) { 
default: 
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break; 
case 2: 
if (this.name[1] != '.") 
break; 
follow_dotdot (nd) ; 
inode ~ nd->dentry->d_inode; 
/* fallthrough */ 
case 1: 
goto return_reval; 
} 
if (nd->dentry->d op 56 nd->dentry->d_op->d_hash) { 
err = nd->dentry->d_op->d_hash (nd->dentry, &this); 
if (err < 0) 
break; 


} 
/1* 查找 最 终 的 文件 */ 
err = do_lookup(nd, &this, énext); 
if (err) 
break; 
inode ~ next.dentry->d_inodey 
/1* 最 终 文件 是 个 符号 链接 ， 要 特殊 处 理 */ 
if ((lookup flags & LOOKUP_ FOLLOW) 
56 inode 55 inode->i_op 56 inode->i_op->follow_ link) { 
err = do_follow link (énext, nd); 
if (err) 
goto return_err; 
inode ~ nd->dentry->d_inode; 
) else 
path_to_nameidata (snext, nd); 
err = -ENOENT; 
if (!inode) 
break; 
/* 带 有 LOOKUP_DIRECTORY 的 标志 ,说 明 打 开 的 是 目录 。 非 我 们 研究 的 情况 ， 跳 过 */ 
if (lookup flags & LOOKUP_DIRECTORY) { 


err = -ENOTDIR; 
if (linode->i_op || !inode->i_op->lookup) 
break; 


} 
goto return_base; 


_link_path_walk 函数 第 五 部 分 是 last_with_slashes 分 支 和 last_component 分 支 。 对 于 
last_with_slashes 分 支 要 加 上 一 个 LOOKUP_DIRECTORY 标志 。 意 味 着 最 终 查找 的 是 一 个 
目录 。 

如 果 参 数 带 有 LOOKUP_PARENT 标志， 进入 lookup_parent 分 支 处 理 ， 而 不 在 
last_component 分 支 处 理 。 这 个 标志 是 目标 文件 有 可 能 不 存在 需要 创建 的 时 候 使 用 ， 
这 说 明 last_component 只 处 理 最 终 目标 文件 存在 的 情况 。 如 果 有 可 能 不 存在 ， 则 需要 
lookup_parent 分 支 处 理 。 

last_component 分 支 同 样 要 处 理 文件 名 是 “点 ”和 “点 点 ”的 情况 ， 这 种 情况 在 前 面 已 
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经 分 析 过 。 
对 最 终 的 目标 文件 ，last_component 分 支 同样 调用 do_lookup 执行 最 终 目标 文件 的 查找 ， 
对 查找 的 结果 ， 也 要 处 理 符号 链接 的 情况 。 这 种 情况 和 第 四 部 分 重合 。 
lookup_parent: 
/*last 成 员 返 回 最 终 目标 文件 的 名 字 和 长 度 */ 
nd->last = this; 
nd->last_type = LAST_NORM; 
if (this.name[0] != 1.') 
goto return_base; 
if (this.len -= 1) 
nd->last_type = LAST_DOT; 
else if (this,len -= 2 55 this.name[1] == ".') 
nd->last_type = LAST_DOTDOT; 
else 
goto return_base; 


__link_path_walk 函数 第 六 部 分 是 lookup_parent 分 支 ， 这 个 分 支 专门 处 理 最 终 目 标 文件 
有 可 能 不 存在 的 场景 。 这 个 分 支 设置 nd 的 返回 类 型 是 LAST_NORM 就 直接 返回 了 ， 并 没 
有 真正 去 执行 查找 。 这 种 情况 最 终 目标 文件 的 查找 是 在 open_namei 函数 执行 的 ， 前 面 已 经 
分 析 过 。 如 果 最 终 的 目标 文件 名 是 点 (“.”) 或 者 点 点 (“ .." )， 返 回 的 last_type 要 表明 是 
LAST_DOT 或 者 LAST_DOTDOT。 

__link_path_walk 函数 很 复杂 ， 为 了 更 清晰 的 理解 ， 我 们 借助 一 个 例子 来 分 析 。 假 设 把 
aufs 文件 系统 挂 载 到 了 /home/mnt/au， 我 们 要 打开 的 文件 是 home/mnt/au/woman star/lbb。 具 
体 步 又 如 下 。 

步骤 1 首先 是 根据 分 隔 号 得 到 home 目录 ， 然 后 计算 home 的 hash 值 ， 调 用 do_lookup。 

步骤 2 这 样 就 获得 了 home 文件 (目录 文件 ) 的 inode， 因 为 home 的 inode 无 follow_link 
调用 ， 最 终 调用 path_to_nameidata。 

步骤 3 对 mnt 目录 用 步骤 1 和 步骤 2 查找 。 

步骤 4 查找 au。 因 为 au 是 个 挂 载 点 ， 在 do_lookup 函数 需要 根据 两 个 文件 系统 的 挂 载 
点 解析 ， 解 析 后 ， 父 目录 就 换 成 了 aufs 的 根 目录 。 这 部 分 下 一 节 再 分 析 。 

步骤 5 对 woman star 目录 用 步骤 1 和 步骤 2 查找 。 

步骤 6 最 后 的 目标 文件 lbb 由 last_component 分 支 处 理 。 在 woman star 目录 可 以 找到 。 

通过 例子 ， 应 该 可 以 清楚 理解 _link_path_walk 函数 的 处 理 流程 。 对 于 路 径 名 中 间 出 现 
的 点 “.” 或 者 点 点 “.."， 以 及 符号 链接 的 处 理 ， 读 者 可 以 自行 分 析 一 下 。 


8. do_lookup 函数 
do_lookup 函数 不 仅 执行 最 终 目 标 文件 的 查找 ， 还 要 处 理 挂 载 点 ， 它 的 代码 如 代码 清 
单 2-36 所 示 。 





代码 清单 2-36 do_lookup 函数 





static int do_lookup(struct nameidata *nd, struct qstr *name, 
struct path *path) 
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struct vfsmount *mnt = nd->mnt7 
struct dentry *dentry = _d_lookup(nd->dentry, name); 


if (!dentry) 
goto need_lookup; 

if (dentry->d_op 55 dentry->d op->d_revalidate) 
goto need_revalidatey 





do_lookup 函数 第 一 部 分 以 nd 的 dentry 为 父 目录 ,调用 _d_lookup 函数 查找 name 所 代 
表 文 件 的 dentry。name 代表 的 文件 既 可 能 是 一 个 普通 文件 ， 也 可 能 是 一 个 目录 文件 。 
do_lookup 函数 第 二 部 分 是 两 个 分 支 。 一 个 是 done 分 支 ， 另 一 个 是 need_lookup 分 支 。 


done: 
path->mnt = mnt; 
path->dentry = dentry; 
_follow mount (Pathb) 7 
return 0; 


need_lookup: 
?5ache 不 到 ， 需 要 责 正 查找 。 这 是 文件 系统 提供 的 lookup 调用 */ 
dentry = real_lookup (nd->dentry, name, nd); 
if (IS_ERR(dentry)) 
goto fail7 
goto done; 

如 果 第 一 部 分 的 查找 成 功 了 ， 则 进入 done 分 支 设 置 vfsmount 对 象 和 dentry， 然 后 检查 
dentry 是 否 一 个 挂 载 点 。 如 果 查 找 未 成 功 ， 则 进入 need_lookup 分 支 。 第 一 部 分 的 查找 是 在 
dentry cache 里 面 进行 ， 如 果 进 入 need_lookup 分 支 ， 说 明 在 dentry cache 中 找 不 到 指定 名 字 
文件 的 dentry。 对 于 建立 在 硬盘 之 上 的 文件 系统 ， 这 时 候 要 调用 文件 系统 提供 的 lookup 函 
数 在 硬盘 上 搜索 文件 。 这 部 分 代码 分 析 深 入 的 话 ， 就 涉及 块 设备 读 写 和 文件 的 读 写 ， 后 文 再 
分 析 。 对 于 我 们 的 情况 ， 不 需要 调用 文件 系统 的 lookup 函数 。 完 成 文件 系统 的 lookup 之 后 ， 
仍然 需要 进入 done 分 支 ， 处 理 挂 载 点 。 


9. _follow_mount 函数 
挂 载 点 的 处 理 需 要 调用 _follow_mount 函数 ， 找 到 挂 载 点 真正 的 dentry 结构 ， 如 代码 清 
单 2-37 所 示 。 


代码 清单 2-37 __follow_mount 函数 


static int _ follow mount(struct path *path) 
{ 
int res = 0; 
while (d_mountpoint (path->dentry)) { 
/* 查找 挂 载 的 对 象 */ 
struct vfsmount *mounted = lookup_mnt (path->mnt, path->dentry); 
if (!mounted) 
break; 
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dput (Path->dentry) 
if (res) 
mntput (Path->mnt) 7 
/* 找到 挂 载 点 ， 更换 dentry 为 挂 载 点 的 root dentry*/ 
path->mnt = mounted; 
path->dentry = dget (mounted->mnt_root); 
res = 17 
) 
return res; 


} 





d_mountpoint 函数 用 于 判断 该 dentry 是 否 是 挂 载 点 ， 也 就 是 判断 d_mounted 参数 是 否 为 
0。 此 时 回顾 mount 系统 调用 。 当 一 个 文件 系统 挂 载 的 时 候 ， 这 个 参数 要 加 1， 所 以 如 果 该 文 
件 的 dentry 被 一 个 文件 系统 挂 载 了 ， 这 个 参数 不 为 0。 

lookup_mnt 是 遍历 系统 的 mount 链表 ， 找 到 挂 载 点 ， 然 后 更 换 dentry。 还 是 用 例子 来 解 
释 。 因 为 au 是 个 挂 载 点 ， 所 以 lookup_mnt 的 参数 就 是 au 的 vfsmount 对 象 和 dentry。aufs 
文件 系统 挂 载 时 ， 已 经 把 文件 系统 的 vfsmount 对 象 链接 到 mount 链表 ，lookup_mnt 找到 的 
结果 就 是 aufs 文件 系统 的 vfsmount 对 象 。 那 么 path 的 dentry 就 换 成 了 aufs 文件 系统 的 root 
dentry。 当 do_lookup 函数 返回 后 ， 下 一 轮 要 寻找 woman star 目录 ， 实 际 是 在 aufs 的 根 目录 
里 面 查找 。 

现在 总 结 open_namei 的 整个 处 理 过 程 : 经 过 层 层 解析 ，open_namei 函数 最 终结 果 是 得 
到 了 文件 的 dentry 和 inode 结构 ， 以 及 vfsmount 对 象 。 

10. nameidata_to_filp 函数 

从 当前 代码 返回 do_filp_open 函数 。open_namei 之 后 ， 要 调用 nameidata to_filp 函数 ， 
实现 打开 文件 的 最 后 一 步 ， 获 得 文件 结构 ， 它 的 代码 如 代码 清单 2-38 所 示 。 

代码 清单 2-38 nameidata_to_filp 函数 


struct file *nameidata_to_filp(struct nameidata *nd, int flags) 
{ 
struct file *filp; 





/* Pick up the filp from the open intent */ 
filp = nd->intent .open.file; 
/* Has the filesystem initialised the file for us? */ 
/* 如 果 文 件 系统 没有 初始 化 £_dentry*/ 
if (filp->f_dentry == NULL) 
filp = __ dentry_open (nd->dentry, nd->mnt, flags, filp, NULL); 
else 
path_release (nd); 
return filp; 
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11. _dentry_open 函数 

文件 结构 filp 已 经 在 open_namei 的 过 程 中 创建 了 ， 只 不 过 它 还 没完 成 初始 化 。 

对 它 初始 化 通过 _dentry_open 函数 执行 ， 初 始 化 过 程 要 对 文件 打开 时 设置 的 选项 进行 
处 理 ， 如 代码 清单 2-39 所 示 。 


代码 清单 2-39 __dentry_open 函数 


static struct fille *_dentry openl(struct dentry *dentry, struct vfsmount *mnt, 
int flags, struct file *f, 
int (*open) (struct inode *, struct file *)) 





struct inode *inode; 
int error; 


£->f flags ~ flags; 
£->f mode = ((flags+1) & O ACCMODE) | FMODE LSEEK | 
FMODE_ PREAD | FMODE PWRITE; 

inode = dentry->d_inode; 
/* 如 果 允 许 写 文件 ， 检 查 写 权限 */ 
if (f->f mode & FMODE WRITE) { 

error = get_write_access (inode); 

if (error) 

goto cleanup file; 

} 
/* 给 文件 的 参数 赋值 */ 
£->f_mapping = inode->i_mapping; 
£->f_dentry ~ dentry; 
f->f_vfsmnt = mnt; 
f->f_pos = 0 
f->f_op = fops_get (inode->i_fop); 
file_move(f, &inode->i_sb->s_ files); 





__dentry_open 函数 第 一 部 分 主要 是 初始 化 文件 的 参数 。 文 件 的 操作 函数 f_op 从 inode 获 
得 。f_mapping 是 文件 的 读 写 cache 的 管理 结构 ， 同 样 从 inode 获得 。 函 数 file_move 把 文件 
加 入 超级 块 对 象 的 文件 链表 ， 这 样 从 超级 块 可 以 遍历 文件 系统 内 所 有 的 文件 结构 。 


if (lopen 55 f£->f_op) 
open = £->f_op->open; 
if (open) { 
error = open(inode, £); 
if (error) 
goto cleanup_all; 


} 
£->f flags &= ~(0_CREAT | O_EXCL | O_NOCTTY | O_TRUNC); 
/* 初始 化 文件 的 预 读 参数 */ 


file_ra_state init (gf->f ra, f->f mapping->host->i_mapping); 


/* NB: we're sure to have correct a_ops only after £f op->open */ 


2.4 本章 小 结 @ 59 


/* 如 果 文件 带 有 O_DIRECT 标志 ,检查 direct I/O 的 函数 调用 */ 
if (f->f flags 6 0O_DIRECT) { 
if (!f->f mapping->a_ops 11 
((!£->f_mapping->a_ops->direct 10) && 
(1£->f_mapping->a_ops->get_xip page))) { 
fput (f£); 
£f = ERR_ PTR(-EINVAL); 
} 
} 


__dentry_open 函数 第 二 部 分 首先 检查 文件 系统 是 否 为 文件 定义 了 open 函数 ， 如 果 已 经 
定义 ， 那 么 随后 执行 文件 的 open 函数 。 然 后 函数 file_ra_state_init 初始 化 文件 预 读 的 参数 。 

文件 预 读 相关 的 内 容 在 第 10 章 。 最 后 是 处 理 O_DIRECT 模式 ， 这 是 通过 direct 1/0 方式 
访问 文件 ， 不 经 过 文件 的 page cache， 在 第 10 章 读 写 文件 的 流程 将 看 到 它 的 作用 。 


2.4 ”本章 小 结 

本 章 通过 一 个 简单 的 文件 系统 ， 分 析 了 文件 系统 挂 载 、 文 件 和 目录 的 创建 ， 以 及 文件 打 
开 的 过 程 。 通 过 这 些 分 析 ， 读 者 对 文件 系统 的 概念 、 超 级 块 、inode 、dentry 的 概念 ， 以 及 
架构 应 该 有 比较 深入 的 理解 。 借 助 这 些 知识 ， 完 全 可 以 分 析 文件 关闭 的 过 程 ， 或 者 chmod、 
ustat 、utime 、truncate 等 文件 系统 调用 的 实现 。 


第 3 章 
设备 的 概念 和 总 体 架构 


CPU、 内 存 和 设备 是 计算 机 最 重要 的 三 个 物质 基础 。 对 设备 的 理解 ， 也 是 我 们 理解 驱动 
架构 ， 总 线 架构 的 基础 。 

通常 的 显卡 网 卡 声卡 等 设备 ， 都 是 先 插入 计算 机 系统 的 PCI 总 线 插 模 (早期 还 有 ISA、 
MCA 总 线 等 。 现 在 PC 领域 基本 PCI 总 线 统一 天 下 )， 安 装 驱动 之 后 ， 应 用 程序 可 以 通过 文 
件 系 统 打 开 和 读 写 设备 文件 。 这 个 过 程 可 以 从 三 个 层面 理解 : 1 ) 设备 本 身 的 特性 ; 2 ) 总 线 
和 操作 系统 对 设备 的 管理 ; 3 ) 设备 的 驱动 层 。 其 中 ， 后 两 个 层面 将 在 本 书 第 8 章 重点 分 析 ， 
第 6 章 和 第 7 章 也 有 很 多 内 容 涉 及 这 两 个 层面 。 设 备 的 特性 这 个 层面 是 理解 设备 的 基础 ， 也 
是 正确 理解 其 他 层面 的 基础 ， 本 章 重点 介绍 设备 的 特性 ， 对 总 线 和 操作 系统 对 设备 的 管理 以 
及 设备 驱动 只 做 简单 描述 ， 细 节 部 分 放 到 后 面 章节 。 


3.1 设备 的 配置 表 


因为 PCI 设备 是 当前 最 广泛 、 最 流行 的 设备 ， 因 此 本 章 以 PCI 设备 为 准 。 以 PCI 设备 为 
例 ， 它 本 身 就 包含 一 个 配置 表 。 用 图 3-1 来 解释 设备 的 配置 表 。 

配置 表 包含 设备 制造 商 填充 的 厂商 信息 。 设 备 属性 等 通用 配置 信息 。 此 外 ， 设 备 厂商 

应 该 提供 设备 的 控制 寄存 器 信息 ， 通 过 这 些 控制 寄存 器 ， 系 统 可 以 设置 设备 的 状态 、 控 
pete 或 者 从 设备 获得 信息 。 另 外 ， 设 备 还 可 能 配备 了 内 存 (有 的 设备 可 能 没有 )， 
系统 可 以 读 写 设备 的 内 存 。 

设备 本 身 有 一 些 配 置信 息 ， 如 设备 的 
ID、 制 造 商 ID 等 。 

设备 内 存 基 址 ， 指 示 了 设备 内 存 的 地 
址 和 长 度 ， 而 设备 寄存 器 基 址 ， 则 指示 了 
设备 的 寄存 器 地 址 和 长 度 。 这 个 设备 有 两 
个 寄存 器 ， 一 个 输入 寄存 器 ， 另 一 个 输出 
寄存 器 。 当 输入 寄存 器 写 人 数值 后 ， 可 以 图 3-1 设备 配置 表 的 信息 
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从 输出 寄存 器 读 到 另 一 个 数值 。 

设备 寄存 器 基 址 ， 这 个 概念 有 点 难 。 实 际 上 ， 可 以 将 其 看 做 一 个 地 址 ， 对 这 个 地 址 写 指 
令 就 可 以 控制 设备 。 所 以 ， 设 备 寄存 器 其 实 就 是 设备 的 控制 接口 。 

PCI 总线 规范 定义 的 PCI 设备 配置 空间 总 长 度 为 256 字 节 ， 配 置信 息 按 一 定 的 顺序 和 大 
小 依次 存放 。 配 置 空间 的 前 64 字 节 称 为 配置 头 。 对 于 所 有 的 设备 而 言 ， 配 置 头 的 主要 功能 
是 用 来 识别 设备 、 定 义 主机 访问 PCI 卡 的 方式 。 其 余 192 字 节 称 为 本 地 配置 空间 ， 主 要 定义 
卡 上 局 部 总 线 的 特性 、 本 地 空间 基地 址 及 范围 等 。 


3.2 访问 设备 寄存 器 和 设备 内 存 


x86 系统 为 控制 设备 设置 了 一 个 地 址 空间 ， 这 个 空间 称 为 计算 机 的 IO 端口 空间 ， 这 个 
空间 占据 了 65536 个 8 位 的 范围 。 

不 同 的 处 理 器 对 设备 控制 接口 有 不 同 的 访问 方式 。 对 x86 系统 来 说 ， 专 门 提供 了 特别 的 
指令 来 访问 设备 寄存 器 。 这 就 是 x86 系统 的 LO 指令 。 

对 上 文 的 例子 设备 而 言 ， 需 要 把 设备 的 寄存 器 基 址 纳入 到 系统 的 UO 端口 空间 里 面 ， 然 
后 就 可 以 通过 系统 提供 的 IO 指令 来 访问 设备 的 寄存 器 。 假 设 设备 厂商 提供 的 寄存 器 基 址 是 
0xlc00， 长 度 是 8 字 节 。 有 两 种 情况 : 

一 种 是 0xlc00 地 址 和 别 的 设备 没有 冲突 ， 可 以 直接 使 用 ， 操 作 系统 内 核 就 记录 设备 
的 寄存 器 基 址 为 0xlc00， 驱 动 通过 x86 系统 提供 的 IO 指令 访问 UO 地 址 0x1c00， 或 者 叫 
0xlc00 IO 端口 ， 就 可 以 设置 设备 输入 寄存 器 的 内 容 。 通 过 IO 指令 访问 地 址 0x1c04， 就 可 
以 读 到 设备 输出 寄存 器 的 内 容 。 

另外 一 种 情况 是 其 他 设备 使 用 了 0x1c00 这 个 IO 地 址 。 操 作 系统 内 核 就 需要 寻找 一 个 
合适 的 寄存 器 基 址 ， 然 后 更 新 设备 的 寄存 器 基 址 ， 并 记录 到 内 核 的 设备 信息 里 面 。 驱 动 使 用 
x86 的 IO 指令 访问 这 个 更 新 后 的 地 址 ， 就 可 以 设置 设备 输入 寄存 器 的 内 容 了 。 

通过 设备 的 UO 端口 控制 设备 ， 这 就 是 设备 驱动 的 功能 。 设 备 厂 商会 提供 设备 寄存 器 的 
详细 内 容 ， 这 也 是 驱动 开发 者 所 必须 关注 的 。 而 发 现 设备 、 扫 描 设备 信 息 、 为 设备 提供 合适 
的 VO 地 址 空间 ， 这 是 内 核 的 总 线 部 分 要 处 理 的 事情 。 

访问 设备 的 内 存 和 前 面 的 过 程 有 所 不 同 。 因 为 设备 内 存 不 占用 IO 端口 空间 ， 而 是 和 系 
统 内 存 占据 一 样 的 地 址 空间 。 内 核 读 取 设备 内 存 基 址 ， 然 后 需要 找到 合适 的 内 存 空 间 ， 把 设 
备 的 内 存 映射 到 内 存 空间 。 这 样 驱动 就 可 以 用 标准 的 内 存 接口 访问 设备 的 内 存 了 。 


3.3 设备 中 断 和 DMA 


设备 是 控制 输入 输出 的 。 接 收 到 输入 信息 后 ， 如 何 通知 主机 CPU ? 通常 情况 下 ， 通 过 
中 断 来 实现 (CPU 也 可 以 轮 询 来 检查 设备 )， 每 个 设备 都 有 自己 的 中 断 号 (设备 可 以 有 多 个 中 
断 )， 对 于 PCI 设备 而 言 ， 中 断 相 关 信息 保存 在 设备 的 配置 空间 里 。 

主机 的 CPU 能 访问 设备 的 内 存 ， 那 么 设备 能 否 访问 系统 的 内 存 ? 这 是 可 以 的 。 设 备 本 
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身 是 挂 载 在 PCI 总 线 上 的 ,设备 使 用 的 内 存 地 址 就 是 PCI 总 线 可 以 访问 的 地 址 ， 称 为 总 线 地 
址 。 在 x86 系统 中 ， 总 线 地 址 和 内 存 物 理 地 址 相同 ， 设 备 直 接 使 用 物理 地 址 访问 系统 内 存 。 
这 种 方式 叫做 DMA (Direct Memory Access， 直 接 获 取 内 存 ) 。 

设备 要 通过 DMA 方式 访问 系统 内 存 ， 就 必须 知道 内 存 的 总 线 地 址 。 如 何 把 内 存 的 总 线 
地 址 传送 给 设备 ?从 设备 的 配置 表 可 以 发 现 ， 设 备 的 寄存 器 里 面 有 一 个 是 保存 DMA 地 址 的 ， 
了 驱动 设置 这 个 寄存 器 的 内 容 ， 然 后 设备 就 能 根据 该 地 址 启动 DMA， 访 问 主机 的 内 存 。 


3.4 总 线 对 设备 的 扫描 


设备 的 配置 信息 提供 了 设备 的 信息 和 设备 寄存 器 基 址 以 及 设备 内 存 基 址 。 因 此 首先 要 读 
到 这 些 信息 ， 然 后 操作 系统 才能 探测 到 设备 ， 理 解 设 备 的 类 型 和 型 号 ， 为 设备 安排 正确 的 驱 
动 ， 并 为 设备 安排 合适 的 IO 端口 和 IO 内 存 。 

但 是 如 何 读 取 设备 的 配置 信息 ? PCI 总 线 对 这 个 问题 的 解决 方法 是 : 保留 8 字 节 的 IO 
端口 地 址 ， 就 是 0xCF8 ~ 0xCFF。 要 访问 设备 的 配置 信息 ， 先 往 0xCF8 地 址 写 入 目标 地 址 
信息 ， 然 后 通过 0xCFC 地 址 读数 据 ， 就 可 以 获得 这 个 配置 信息 。 这 里 的 写 和 读 ， 都 是 使 用 
x86 所 特有 的 IO 指令 。 

写 人 0xCF8 的 目标 地 址 信息 ， 包 括 总 线 号 、 设 备 号 、 功 能 号 和 配置 寄存 器 地 址 等 综合 信 
息 。 当 PCI 总 线 读 取 到 设备 信息 ， 系 统 要 为 设备 创建 一 个 PCI 设备 对 象 ， 设 备 就 这 样 被 PCI 
总 线 扫描 进来 。 这 个 过 程 在 第 8 章 将 详细 分 析 。 


3.5 设备 驱动 管理 


完成 对 设备 的 扫描 后 ， 接 下 来 要 为 设备 安装 正确 的 驱动 。 设 备 对 象 创建 后 ， 要 把 设备 注 
册 到 总 线 。 当 设备 注册 到 总 线 时 ， 总 要 扫描 一 遍 总 线 ， 看 是 否 能 为 设备 找到 驱动 。 设 备 的 配 
置 表 里 包含 了 设备 的 厂商 信息 、 设 备 型 号 和 类 型 ， 而 设备 的 驱动 也 要 包含 设备 的 型 号 和 类 型 
信息 ， 如 果 两 者 匹配 ， 说 明 驱 动 是 正确 的 ， 可 以 为 这 个 设备 服务 。 

当 驱 动 注册 到 总 线 的 时 候 ， 也 要 扫描 一 遍 总 线 ， 看 能 知 找 到 适合 该 驱动 的 设备 。 扫 描 的 
方式 和 设备 注册 扫描 的 方式 一 样 。 


3.6 ”本章 小 结 


设备 是 很 重要 的 概念 也 是 准确 理解 驱动 、 总 线 等 概念 的 基础 。 初 次 接触 概念 理解 上 难 
免 有 困难 ， 但 是 不 要 紧 ， 我 们 需要 在 具体 的 流程 中 逐渐 深化 ， 通 过 细节 来 真正 学 握 概念 。 


第 4 章 
为 设备 服务 的 特殊 文件 系统 sysfs 


is 是 Linux 系统 提供 的 一 个 特殊 文件 系统 。 这 个 文件 系统 的 主要 作用 是 在 用 户 态 展示 
一 个 安装 Linux 的 计算 机 系统 中 ， 可 以 在 根 目录 下 面 找 到 sys 目录 ， 这 个 目录 
是 利用 sysf 文件 系统 创建 的 。 打 开 sys 目录 ， 可 以 看 到 对 设备 的 分 类 显示 ， 如 图 









图 4-1 设备 的 分 类 


操作 系统 通常 把 设备 分 类 为 block、bus、class 、dev、devices、firmware、 人 等 目录 。 很 
多 读者 都 了 解 ，Linux 系统 是 通过 proc 文件 系统 来 管理 内 核 的 重要 数据 ， 但 是 随 着 sysfs 文 
件 系统 越 来 越 重要 ， 有 些 内 核 的 重要 数据 也 开始 通过 sysfs 文件 系统 来 提供 ， 而 proc 文件 系 
统 由 于 本 身 的 缺陷 ， 越 来 越 少 被 用 到 
全 注意 

对 sys 目录 进行 操作 可 以 发 现 ， 在 sys 目录 下 不 能 创建 和 删除 文件 ， 这 是 因为 sysfs 文件 
系统 没有 提供 创建 和 删除 文件 的 功能 。 和 设备 有 关 的 另 一 个 目录 是 dev 目录 。 后 面 我 们 将 看 
到 ， 根 目录 下 的 /dev 目录 的 设备 文件 只 是 个 代表 符号 ， 不 包括 设备 相关 的 信息 





4.1 文件 和 目录 的 创建 

第 2 章 给 出 了 一 个 最 简单 的 文件 系统 auf。 本 节 利用 aufs 文件 系统 中 学 到 的 知识 ,继续 
对 sysfs 文件 系统 进行 分 析 。 基 于 已 知 来 学 习 未 知 ， 可 以 保证 知识 点 的 衔接 ， 同 时 每 次 学 习 
的 知识 点 不 会 太 多 ， 以 防止 造成 理解 的 困难 
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4.1.1 sysfs 文件 系统 的 初始 化 
sysfs 本 身 比 较 简 单 ， 直 接 从 它 的 初始 化 代码 开始 分 析 。sysfs 文件 系统 提供 了 一 个 初始 
化 函数 sysfs_init 来 完成 注册 和 初始 化 的 工作 ， 如 代码 清单 4-1 所 示 。 
代码 清单 4-1 sysfs 的 初始 化 
int _ init sysfs_init (void) 


{ 
int err = -ENOMEM; 





Sysfs_dir cachep = kmem cache create("sysfs dir cache", 
sizeof (struct sysfs_dirent), 
0, 0, NULL, NULL); 
if (!sysfs_dir_cachep) 
goto out; 


err = register filesystem(ssysfs fs_type); 
if (lerr) { 
sysfs_mount = kern_mount(5sysfs_fs_type)7 





sysfs_init 的 代码 中 ，register_filesystem 和 kern_mount 前 文 已 经 分 析 过 。 这 两 个 函数 的 
作用 是 把 sysfs 文件 系统 插 人 到 文件 系统 的 总 链表 中 ， 然 后 为 sysfs 文件 系统 创建 vfsmount 对 
象 、 根 dentry 和 根 inode 结构 。 

而 kmem_cache_create 函数 的 作用 是 创建 一 个 memory cache 对 象 。 在 第 1 章 内 核 基础 层 
一 节 分 析 过 ， 它 创建 了 一 个 slab 对 象 ， 同 时 指定 了 对 象 的 大 小 ， 以 后 可 以 利用 这 个 对 象 申 请 
内 存 。 

sysfs 文件 系统 提供 了 函数 sysfs_get_sb， 它 的 功能 是 创建 文件 系统 超级 块 对 象 。sysfs_ 
get_sb 函数 的 实现 和 aufs 文件 系统 一 样 ， 通 过 调用 内 核 提供 的 get_sb_single 创建 超级 块 对 
象 。sysfs 调用 get_sb_single 时 ， 提 供 了 sysfs_fill_super 函数 作为 sysfs 文件 系统 超级 块 的 赋 
值 函 数 。 这 个 赋值 函数 和 auf 的 赋值 函数 很 相似 ， 留 给 读者 自行 分 析 。 


4.1.2 sysfs 文件 系统 目录 的 创建 


对 于 一 个 文件 系统 ， 我 们 最 关心 的 是 文件 和 目录 的 创建 和 删除 ， 以 及 读 写 。 本 节 先 介绍 
目录 文件 的 创建 。 


1. 调用 sysfs_create_dir 函数 创建 目录 文件 
sysfs 文件 系统 使 用 sysfs_create_dir 函数 创建 目录 文件 ， 其 实现 如 代码 清单 4-2 所 示 。 


代码 清单 4-2 sysfs_create_dir 函数 





int sysfs_create dir(struct kobject * kobj) 
{ 

struct dentry * dentry = NULL; 

struct dentry * parent; 
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int error = 0; 


BUG_ON (!kobj); 
/* 设置 父 dentry， 如 果 没有 父 dentry， 指 定 文件 系统 的 root dentry 为 父 dentry*/ 
if (kobj->parent) 
parent = kobj->parent->dentry; 
else if (sysfs_mount && sysfs mount->mnt_sb) 
parent = sysfs_mount->mnt_sb->s_root; 
else 
return -EFAULT; 


error ~ create_ dir (kobj,parent, kobject_name (kobj), sdentry); 
if (!error) 
kobj->dentry = dentry; 
return error; 
} 





sysfs_create_dir 的 输入 参数 是 一 个 kobject 指针 。 结 构 kobject 和 sysfs 文件 系统 结合 紧 
密 ， 它 的 成 员 包含 一 个 dentry 指针 。 从 第 2 章 分 析 的 知识 点 我 们 了 解 到 ，dentry 代表 着 文件 
系统 内 部 的 层次 关系 ， 而 包含 dentry 指针 的 结构 kobject 可 以 对 应 到 sysfs 文件 系统 的 一 个 目 
录 ， 这 个 dentry 指针 就 是 目录 文件 的 dentry。 


2. 调用 create_dir 实际 执行 目录 的 创建 
sysfs_create_dir 调用 create_dir 实际 执行 目录 的 创建 ， 它 的 代码 如 代码 清单 4-3 所 示 。 


代码 清单 4-3 调用 create_dir 实际 执行 目录 的 创建 


static int create_dir(struct kobject * k, struct dentry * p, 
124 const char * n, struct dentry ** d) 
125 1{ 
126 int error; 

/* 指定 是 一 个 目录 操作 */ 
127 umode t mode = S_IFDIRI S_IRWXU | S_IRUGO | S_IXUGO; 
128 
129 ”mutex_lock(sp->d_inode->i_mutex) 7 
130  *d = lookup_one_len(n, p, strlen(n)); 
131 if (!IS_ERR(*d)) { 

/* 如 果 dirent 对 象 存在 ， 退 出 返回 错误 ， 否 则 创建 一 个 新 的 dirent*/ 





132 if (sysfs_dirent exist(p->d_fsdata, n)) 
133 error = -EEXIST; 

134 else 

135 error = sysfs_make dirent (p->d_fsdata, *d, k, mode, 
136 SYSFS_DIR); 





create_dir 函数 的 第 一 部 分 是 调用 lookup_one_len 在 dentry cache 里 面 查找 同名 的 dentry。 
如 果 没 有 ， 则 创建 一 个 新 的 dentry。lookup_one_len 函数 前 文 已 经 分 析 过 。 

第 135 行 引 出 一 个 新 的 概念 : sysfs_dirent 结构 。 对 sysfs 文件 系统 内 的 每 个 目录 和 文件 ， 
都 要 为 之 创建 一 个 sysfs_dirent 对 象 。 实 际 上 ，sysfs 文件 系统 的 树 形 结构 是 通过 sysfs_dirent 
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保存 的 ; 而 目录 和 文件 的 名 字 也 是 通过 sysfs_dirent 保存 的 。 可 以 说 ， 结 构 sysfs_dirent 扮演 
了 很 重要 的 角色 。 


137 if (!error) { 


138 error = sysfs_create(*d, mode, init dir); 
139 if (!error) { 

140 p->d_inode->i_nlink++7 

141 (*d)->d_op = 5&sysfs dentry_ops; 

142 d_rehash (*d); 

143 上 

144 } 


create_dir 函数 的 第 二 部 分 首先 调用 sysfs_create 函数 为 文件 创建 inode 结构 。 如 果 一 切 
正常 成 功 ， 调 用 d_rehash 函数 把 第 一 部 分 新 创建 的 dentry 对 象 链接 到 dentry cache 的 一 个 
hash 链表 。dentry cache 的 hash 链表 已 经 分 析 过 ， 此 处 略 过 。 


3. 调用 sysfs_make_dirent 函数 创建 一 个 sysfs_dirent 结构 
create_dir 函数 调用 sysfs_make_dirent 函数 创建 一 个 sysfs_dirent 结构 ， 如 代码 清单 4-4 
所 示 。 
代码 清单 4-4 调用 sysfs_make_dirent 函数 创建 一 个 sysfs_dirent 结构 


int sysfs_make_dirent (struct sysfs dirent * parent_sd, struct dentry * dentry, 
void * element, umode t mode，int type) 





{ 
struct sysfs_dirent * sd; 
sd -~ sysfs new dirent (parent_sd, element); 
if (!sd) 
return -ENOMEM; 


sd->s_mode ~ mode; 

sd->s_type = type; 

/* 保存 目录 或 者 文件 的 dentry 对 象 */ 
sd->s_dentry = dentry; 

if (dentry) { 
/*d_fsdata 保存 sysfs_dirent 的 指针 */ 
dentry->d_fsdata = sysfs_get(sd); 
dentry->d_op = &sysfs_dentry_ops; 

} 


return 0; 
} 





sysfs_make_dirent 函数 调用 sysfs_new_dirent 创建 一 个 新 的 sysfs_dirent 结构 ， 这 个 新 的 
结构 要 链接 到 父 结构 的 链表 ， 而 且 保 存 传递 进来 的 element 参数 。 


4. 调用 sysfs_create 函数 为 目录 文件 创建 一 个 inode 对 象 
现在 返回 create_dir 函数 ， 在 获得 dentry 结构 之 后 ， 还 需要 为 目录 文件 创建 一 个 inode 对 
象 ， 这 是 通过 sysfs_create 函数 实现 的 ， 如 代码 清单 4-5 所 示 。 
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代码 清单 4-5 调用 sysfs_create 函数 为 目录 文件 创建 一 个 inode 对 象 





int sysfs_create(struct dentry * dentry, int mode, int (*init) (struct inode *)) 
{ 
int error = 0; 
struct inode * inode = NULL; 
if (dentry) { 
if (!dentry->d_inode) { 
struct sysfs dirent * sd = dentry->d_fsdata; 
if ((inode = sysfs new inode(mode, sd))) 1 
if (dentry->d_parent &5§ dentry->d parent->d_inode) { 
struct inode *p_inode = dentry->d_parent->d_inode; 
p_inode->i_mtime = p_inode->i_ctime = CURRENT_TIME; 
} 
goto Proceed; 


Proceed: 
if (init) 
error = init(inode); 
if (lerror) { 
d_instantiate (dentry, inode); 
if (S_ISDIR(mode)) 
dget (dentry); /* pin only directory dentry in core */ 
} else 
iput (inode); 
Done: 
return error; 





sysfs_create 函数 可 以 分 成 两 部 分 : 

口 第 一 部 分 是 调用 sysfs_new_inode 创建 一 个 inode 对 象 。 

口 第 二 部 分 调用 传递 进来 的 函数 指针 init 执行 初始 化 。 

(1 ) 调用 sysfs_new_inode 创建 一 个 inode 对 象 

先 从 sysfs_new_inode 函数 开始 分 析 ， 它 的 代码 如 代码 清单 4-6 所 示 。 


代码 清单 4-6 sysfs_new_inode 函数 





struct inode * sysfs_new_inode (mode t mode, struct sysfs dirent * sd) 


124 { 
125 struct inode * inode ~ new inode(sysfs_sb); 
126 if (inode) { 
127 inode->i_blksize = PAGE CACHE_ SIZE; 
128 inode->i_blocks = 0; 
/* 赋值 i_mapping 函数 指针 ， 后 备 设备 操作 信息 ， 和 inode 函数 指针 */ 
129 inode->i_ mapping->a_ops = &sysfs aops; 
130 inode->i_mapping->backing dev_info = &sysfs backing dev_info; 
131 inode->i_op = &sysfs_inode operations; 
132 lockdep set class(&inode->i mutex, &sysfs inode imutex key); 


133 /* 设置 inode 信息 ,主要 是 时 间 和 用 户 信息 */ 
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134 if (sd->s_iattr) { 

135 /* sysfs dirent has non-default attributes 
136 * get them for the new inode from persistent copy 
137 * in sysfs_dirent 

138 */ 

139 set_inode attr(inode, sd->s_iattr); 

140 } else 

141 set_default_inode attr(inode, mode); 

142 } 

143 return inode; 

144 } 





sysfs_new_inode 函数 本 身 很 简单 ， 但 是 涉及 很 多 函数 指针 ， 这 些 函数 指针 牵扯 的 层面 就 
繁杂 了 。backing_dev_info 和 块 设备 的 预 读 算法 和 队列 控制 有 关 ， 暂 不 在 此 处 讨论 。 代 码 第 
129 行 的 sysfs_aops 和 文件 的 page cache 有 关 ， 是 文件 page cache 的 读 写 执行 函数 ， 在 sysfs 
文件 系统 里 ， 实 际 上 并 没有 使 用 。 

(2 ) 调用 init_dir 函数 执行 初始 化 

代码 第 131 行 赋值 了 sysfs_inode_operations， 作 为 inode 结构 的 操作 函数 ， 但 是 随后 
sysfs_create 马上 调用 函数 指针 init 指向 的 函数 。 这 个 函数 就 是 init_dir， 它 的 作用 是 重新 初始 
化 。init_dir 的 代码 如 代码 清单 4-7 所 示 。 


代码 清单 4-7 调用 init_dir 函数 执行 初始 化 


static int init dir(struct inode * inode) 
{ 
inode->i op ~ ésysfs dir inode operations; 
inode->i_fop = &sysfs dir operations; 


/* directory inodes start off with i nlink == 2 (for "." entry) */ 
inode->i_nlink+t+; 
return 01 

) 








函数 init_dir 重新 执行 了 赋值 ， 它 为 inode 结构 赋值 的 函数 指针 组 是 sysfs_dir_inode_ 
operations。 函数 指针 组 sysfs_dir_inode_operations 包含 了 一 个 lookup 函数 。 

此 时 可 以 回顾 文件 的 打开 过 程 ， 需 要 文件 系统 提供 的 lookup 函数 去 真正 查找 文件 。 对 
sysfs 文件 系统 而 言 ，lookup 函数 就 是 sysfs_dir inode_operations 包含 的 sysfs_lookup 函数 。 
本 章 后 面 将 继续 分 析 sysfs 文件 系统 打开 文件 的 过 程 。 


4.1.3 普通 文件 的 创建 
除了 目录 文件 之 外 ，sysfs 文件 系统 还 定义 了 几 种 文件 ， 分 别 是 : 普通 文件 、 二 进 制 文件 
和 符号 链接 文件 。 这 些 文件 中 ,普通 文 件 最 具有 典型 性 ， 因 此 选择 普通 文件 进行 分 析 。 
普通 文件 通过 sysfs_create_file 函数 创建 ， 它 的 代码 如 代码 清单 4-8 所 示 。 
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代码 清单 4-8 通过 sysfs_create_file 函数 创建 普通 文件 


int sysfs create file(struct kobject * kobj, const struct attribute * attr) 
{ 
BUG_ON(!kobj 11 !kobj->dentry 11 !attr); 
/* 指定 是 一 个 SYSFS_KOBJ_ATTR 类 型 ， 这 里 创建 的 文件 是 为 sysfs 文件 系统 服务 的 */ 
return sysfs_add file(kobj->dentry, attr, SYSFS_KOBJ ATTR); 





上 
Int sysfs add file(struct dentry * dir, const struct attribute * attr, int type) 
{ 

struct sysfs dirent * parent sd = dir->d fsdata; 

umode_t mode = (attr->mode & S_IALLUGO) | S_IFREG; 

int error = -EEXIST; 


mutex_lock (sdir->d_inode->i_mutex); 
if (!sysfs dirent exist(parent sd, attr->name)) 
error = sysfs_make_dirent (parent_sd, NULL, (void *)attr, 
mode, type); 
mutex_unlock (sdir->d_inode->i_mutex); 


return error; 
} 





普通 文件 的 创建 很 简单 ， 和 目录 文件 的 创建 一 样 ， 调 用 sysfs_make_dirent 函数 创建 一 个 
sysfs_dirent 结构 。 

读者 是 否 发 现 和 创建 目录 的 不 同 ? 创建 目录 的 时 候 要 调用 lookup_one_len 函数 ，lookup_ 
one_len 函数 要 为 新 目录 创建 dentry， 而 创建 文件 并 没有 调用 lookup_one_len 函数 ， 也 就 是 说 
创建 文件 的 时 候 没 创建 它 的 dentry 对 象 。 


人 注意 

这 里 有 必要 串联 一 下 文件 系统 的 知识 点 。 从 最 简单 文件 系统 aufs 的 例子 我 们 知道 ， 文 件 
系统 为 每 个 文件 (目录 也 是 一 种 文件 ) 创建 了 一 个 inode 对 象 和 dentry 对 象 ( 也 有 特殊 的 文件 
系统 例外 )。 而 sysfs 文件 系统 在 创建 文件 的 时 候 只 创建 了 sysfs_dirent 对 象 ， 那 么 在 何 时 创建 
dentry 和 inode ? 实际 是 在 打开 文件 的 过 程 中 创建 的 。 


4.2 sysfs 文件 的 打开 操作 


回顾 一 下 ， 前 面 已 经 分 析 过 VFS 虚拟 文件 系统 文件 打开 的 过 程 。 打 开 文件 的 过 程 ， 实 
际 就 是 将 文件 的 整个 路 径 名 层 层 解析 ， 最 终 找 到 目标 文件 的 过 程 。 如 果 文 件 曾 经 被 打开 过 ， 
dentry cache 中 可 能 保存 文件 的 dentry 结构 ( dentry cache 也 有 可 能 为 节省 内 存 释放 保存 的 结 
构 ， 此 处 假定 没有 释放 ) ; 如 果 在 dentry cache 中 不 能 找到 文件 的 dentry 结构 ， 那 么 要 调用 
Teal_lookup 函数 ，real_lookup 函数 里 再 调用 文件 系统 提供 的 lookup 函数 ， 所 以 在 分 析 sysfs 
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文件 打开 操作 之 前 ， 有 必要 分 析 一 下 real_lookup 调用 。 


4.2.1 real_lookup 函数 详解 


real_lookup 函数 在 第 2 章 并 没有 分 析 ， 本 节 从 real_ lookup 函数 开始 分 析 sysfs 文件 系统 
的 文件 打开 操作 ， 它 的 代码 如 代码 清单 4-9 所 示 。 


代码 清单 4-9 real_lookup 函数 


static struct dentry * real_lookup(struct dentry * parent, 
struct qstr * name, struct nameidata *nd) 
{ 

struct dentry * result; 

struct inode *dir = parent->d_inode; 





mutex_lock (&dir->i_mutex); 
/* 再 执行 一 次 d_lookup， 检 查 是 否 有 另外 的 进程 创建 文件 */ 
result = d_lookup (parent, name); 
if (!result) { 
struct dentry * dentry = d_alloc (parent, name); 
result = ERR_PTR(-ENOMEM); 
if (dentry) { 
result = dir->i_op->lookup (dir, dentry, nd); 
if (result) 
dput (dentry); 
else 
result = dentry; 
} 
mutex_unlock(sdir->i_mutex); 
we, /* 此 处 省 略 校 验 的 代码 */ 
return result; 
} 





根据 代码 中 的 解释 ，real_lookup 需要 在 dentry cache 中 再 搜索 一 遍 ， 这 是 为 了 防止 在 等 
信号 量 的 时 候 ， 已 经 有 其 他 用 户 创建 了 文件 。 


对 于 搜索 不 到 的 文件 ，real_lookup 创建 了 一 个 dentry 对 象 ， 然 后 调用 文件 系统 提供 的 
lookup 函数 执行 搜索 。 对 sysfs 文件 系统 来 说 ， 就 是 sysfs_lookup 函数 。 
4.2.2 为 文件 创建 inode 结构 


sysfs 创建 文件 的 时 候 并 没有 创建 dentry 对 象 ， 那 么 在 此 处 为 文件 创建 了 dentry， 还 需要 
为 文件 创建 inode 结构 ， 这 是 sysfs_lookup 函数 的 功能 ， 它 的 代码 如 代码 清单 4-10 所 示 。 


代码 清单 4-10 sysfs_lookup 函数 为 文件 创建 inode 结构 


static struct dentry * sysfs_lookup(struct inode *dir, 





struct dentry *dentry,struct nameidata *nd) 
{ 


struct sysfs_ dirent * parent_sd = dentry->d_parent->d_fsdata; 
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struct sysfs dirent * sd; 
int err = 07 
list_for each_entry(sd, séparent sd->s children, s sibling) { 
/*SYSFS_NOT_PINNED 代表 文件 、 二 进 制 文件 和 符号 链接 ， 如 果 不 是 这 些 ， 就 是 目录 ， 直 接 退 出 */ 
if (sd->s_type 5 SYSFS_NOT_PINNED) { 
const unsigned char * name = sysfs_get_name(sd); 


if (strcmp (name, dentry->d_name.name)) 
continue; 
/* 如 果 是 符号 链接 文件 ， 则 调用 sysfs_attach_link*/ 
if (sd->s_type 5 SYSES_KOBJ_LINK) 
err = sysfs_attach link(sd, dentry); 
else 
err = sysfs attach attr(sd, dentry); 
break; 


} 


return ERR_PTR(err); 
} 





sysfs_lookup 函数 首先 遍历 父 对 象 sysfs_dirent 的 链表 ， 逐 一 比较 父 对 象 的 子 成 员 ， 寻 找 
名 字 和 指定 名 字 相 同 的 子 成 员 。 这 个 过 程 和 dentry 的 搜索 过 程 类 似 ， 可 见 sysfs 文件 系统 通 
过 sysfs_dirent 对 象 来 管理 文件 系统 的 树 形 结构 ，sysfs_dirent 对 象 的 部 分 功能 和 dentry 的 功 
能 类 似 。 


4.2.3 为 dentry 结构 绑 定 属性 


对 于 不 同类 型 的 文件 ， 其 sysfs_dirent 对 象 也 具有 不 同 的 属性 ， 需 要 为 dentry 结构 绑 定 
各 自 的 属性 。 对 于 普通 的 文件 ， 调 用 sysfs_attach_attr 函数 来 绑 定 属性 ， 它 的 代码 如 代码 清 
单 4-11 所 示 。 


代码 清单 4-11 调用 sysfs_attach_attr 函数 绑 定 属性 


static int sysfs_attach_attr(struct sysfs_dirent * sd, struct dentry * dentry) 
{ 
struct attribute * attr = NULL; 
struct bin attribute * bin attr = NULL; 
int (* init) (struct inode *) = NULL; 
int error = 0; 
/*sd 保存 了 文件 的 一 些 私有 数据 。 普 通 文件 是 attribute 结构 ， 而 二 进 制 文件 是 bin attribute 结构 */ 
if (sd->s_type & SYSFS KOBJ BIN ATTR) { 
bin attr = sd->s_ element; 
attr = &bin attr->attr; 
) else { 
attr = sd->s_element; 
init = init file; 
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dentry->d_fsdata ~ sysfs get(sd); 
sd->s_dentry = dentry; 
error = sysfs_create(dentry, (attr->mode & § IALLUGO) | S_IFREG, init); 
if (error) { 
sysfs_put (sd); 
return error; 


if (bin attr) { 
dentry->d_inode->i_size ~ bin attr->size; 
dentry->d_inode->i fop = Sbin_fops; 

} 

dentry->d_op = &sysfs_dentry_ops; 

/*dentry 加 入 dentry cache， 下 次 就 可 以 在 dentry cache 中 找到 */ 

ad_rehash (dentry); 


return 07 


} 





sysfs_attach_attr 首先 调用 sysfs_create 函数 创建 node 对 象 。 代 码 执行 到 此 ， 文 件 的 
dentry 和 inode 对 象 都 创建 完成 。 

然后 要 区 分 二 进 制 文 件 还 是 普通 文件 。 如 果 是 二 进 制 文 件 ， 需 要 重新 赋值 文件 的 操作 
函数 。 在 创建 inode 对 象 时 ， 已 经 为 普通 文件 赋值 了 操作 函数 ， 这 些 操作 函数 就 是 sysfs 文 
件 系统 提供 的 sysfs_file_operations 结构 。 但 是 二 进 制 文件 的 操作 函数 不 同 ， 所 以 还 需要 重 
新 赋值 。 


4.2.4 调用 文件 系统 中 的 open 函数 


返回 文件 打开 的 过 程 ， 执 行 完 real_lookup 之 后 ， 还 需要 在 dentry_open 函数 中 执行 文件 
系统 提供 的 open 函数 。 

对 普通 文件 而 言 ，sysfs 文件 系统 提供 的 open 函数 就 是 sysfs_open_file， 二 进 制 文件 的 
open 函数 和 普通 文件 的 基本 是 类 似 的 。 所 以 我 们 以 普通 文件 的 sysfs_open_file 为 准 ， 如 代码 
清单 4-12 所 示 。 


代码 清单 4-12 sysfs_open_file 函数 


static int sysfs_open_file(struct inode * inode, struct file * flp) 
{ 

return check_perm(inode,filp); 
} 








sysfs_open 函数 是 check_perm 函数 的 封装 函数 ，check_perm 函数 如 代码 清单 4-13 所 示 。 
代码 清单 4-13 check_perm 函数 


static int check perm(struct inode * inode, struct file * file) 
{ 
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struct kobject *kobj = sysfs get kobject (file->f dentry->d parent); 
struct attribute * attr = to attr(file->f dentry); 

struct sysfs_buffer * buffer; 

struct sysfs_ops * ops = NULL; 

int error 





if (!kobj 11 !attr) 
goto Einvali 


/* Grab the module reference for this attribute if we have one */ 
if (!try module get (attr->owner)) { 

error = -ENODEV; 

goto Dones; 
} 


/*ops 实际 上 提供 了 文件 的 读 写 函 数 指针 ， 后 面 可 以 见 到 它 的 应 用 “*/ 
/* if the kobject has no ktype, then we assume that it is a subsystem 
* itself, and use ops for it. 
时 
if (kobj->kset 56 kobj->kset->ktype) 
ops = kobj->kset->ktype->sysfs_ops; 
else if (kobj->ktype) 
ops = kobj->ktype->sysfs_ops; 
else 
ops = &subsys_sysfs_ops; 


check_perm 函数 第 一 部 分 主要 作用 是 检查 文件 的 权限 。 

sysfs 文件 系统 的 普通 文件 默认 具有 attribute 结构 ， 而 目录 文件 默认 具有 一 个 kobject 结 
构 。 如 果 目 录 文件 的 kobject 提供 了 文件 的 操作 函数 ， 普 通 文件 要 赋值 为 kobject 结构 提供 的 
函数 ; 否则 就 要 赋值 为 子 系统 函数 指针 结构 subsys_sysfs_ops。 然 后 根据 文件 的 读 写 权 限 设 
置 ， 分 别 检查 inode 结构 的 权限 模式 。 


/* No error? Great, allocate a buffer for the file, and store it 
* it in file->private data for easy access. 
“7 
buffer ~ kzalloc(sizeof (struct sysfs buffer), GFP_KERNEL); 
if (buffer) { 
init_MUTEX (sbuffer->sem); 
buffer->needs_read fill = 1; 
buffer->ops = ops; 
file->private data = buffer; 
1 else 
error -= -ENOMEM; 
goto Doney 
} 


check_perm 函数 第 二 部 分 创建 一 个 私有 的 数据 结构 buffer， 文 件 的 private_data 指针 指向 
了 这 个 结构 。 这 是 一 种 在 文件 对 象 中 保存 文件 系统 特殊 信息 的 方式 ， 在 实际 的 文件 系统 中 ， 
经 常 可 以 看 到 这 种 使 用 方式 。 


74 e 第 4 章 为 设备 服务 的 特殊 文件 系统 sys 人 


4.3 sysfs 文件 的 读 写 
sysfs 是 在 内 存 中 存在 的 文件 系统 ， 它 的 文件 都 只 在 内 存 中 存在 。 因 此 对 文件 的 读 写实 际 
是 对 内 存 的 读 写 ， 不 涉及 对 硬盘 的 操作 。 


4.3.1 读 文 件 的 过 程 分 析 
对 文件 的 读 仍然 以 普通 文件 为 准 进行 分 析 。 普 通 文件 的 读 函 数 是 sysfs_read_file， 它 的 代 
码 如 代码 清单 4-14 所 示 。 
代码 清单 4-14 读 函 数 sysfs_read_file 





static ssize t 
sysfs_read_file(struct file *file, char _user *buf, size t count，1off_t *ppos) 


{ 
/* 获取 buffer 对 象 */ 
struct sysfs_ buffer * buffer ~ file->private data; 
ssize_t retval = 0; 


down (Sbuffer->sem); 
if (buffer->needs_read {il1) { 
if ((retval = fill_read buffer (file->f_dentry,buffer))) 
goto out; 


oe /* 省 略 无 关 的 输出 代码 */ 
retval = flush_read_buffer (buffer, buf, count,ppos); 





sysfs_read_file 函数 调用 fll_read_buffer 申请 内 存 页 ， 然 后 填充 数据 ， 最 后 将 数据 从 
buffer 复制 到 用 户 的 缓存 。 
文件 的 内 容 是 通过 flL_read_buffer 填 人 的 ， 它 的 代码 如 代码 清单 4-15 所 示 。 
代码 清单 4-15 调用 仙 _read_buffer 函数 申请 内 存 页 


static int fill_read_buffer(struct dentry * dentry, struct sysfs_buffer * buffer) 
{ 





/* 获取 sysfs_dirent 结构 和 属性 结构 ， 以 及 文件 所 在 目录 的 kobject 结构 */ 
struct sysfs dirent * sd ~ dentry->d_fsdata; 

struct attribute * attr = to_attr(dentry); 

struct kobject * kobj = to_kobj(dentry->d_parent); 

struct sysfs_ ops * ops = buffer->ops; 

int ret = 0; 

ssize_t count; 


if (!buffer->page) 

buffer->page = (char *) get_zeroed page(GFP KERNEL); 
if (!buffer->page) 

return -ENOMEM; 


buffer->event = atomic_read(&sd->s_ event); 
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count = ops->show(kobj,attr,buffer->page); 
buffer->needs_read fill = 0; 





人 fill_read_buffer 函数 首先 申请 一 个 内 存 页 ， 然 后 调用 ops->show 向 内 存 页 填充 数据 。 为 
了 帮助 理解 ， 有 必要 从 内 核 找 个 实际 的 例子 show 函数 ， 既 要 简单 又 能 说 明 问 题 。 因 此 从 
input 设备 驱动 找到 一 个 简单 的 show 函数 ， 就 是 input_dev_show_id， 这 个 函数 的 作用 是 填充 
设备 的 ID 名 ， 它 的 代码 如 代码 清单 4-16 所 示 。 
代码 清单 4-16 input_dev_show_id 函数 填充 设备 的 ID 名 
#define INPUT_DEV_ID_ATTR(name) 


static ssize t input_dev_show_ id ###name (struct class device *dev, char *buf) 
{ 
struct input_dev *input_dev = to_input dev(dev); 
return scnprintf (buf, PAGE_SIZE, "%04x\n", input_dev->id.name); 
} 
static CLASS DEVICE ATTR(name, S_IRUGO, input dev_show id ##name, NULL); 











字符 “ 姑 ” 是 内 核 中 常用 的 一 种 定义 方式 ， 作 用 是 顶替 字符 串 。 如 果 输 入 参数 name 是 
bustype， 函 数 的 真正 名 字 是 input_dev_show_id_bustype。input_dev_show_id 函数 的 作用 是 把 
设备 ID 的 name 复制 到 buf 处， 最 终 sysfs_read_file 函数 要 把 buf 的 内 容 复制 到 用 户 输入 的 
用 户 态 缓存 。 这 样 用 户 读 到 的 就 是 buf 里 面 填充 的 字符 串 。 

至 此 ，sysfs 文件 的 读 过 程 分 析 完 毕 。 


4.3.2 写 文件 的 过 程 分 析 
普通 文件 的 写 函数 是 sysfs_write_file， 它 的 代码 如 代码 清单 4-17 所 示 。 
代码 清单 4-17 写 函 数 sysfs_write_file 


static ssize t sysfs write file(struct file *file, const char _ user *buf, 
size_t count, loff_t *ppos) 
{ 

/* 获 得 buffer 对 象 */ 

struct sysfs buffer * buffer = file->private data; 

ssize t len; 





down (sbuf fer->sem); 
/* 从 用 户 的 buf 复制 数据 到 buffer 对 象 的 页 */ 
len = fill write buffer (buffer, buf, count); 
if (len > 0) 
len = flush_write_buffer (file->f_dentry, buffer, len); 
if (len > 0) 
*ppos += len; 
up (sbuffer->sem); 
return len; 
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sysfs_write_file 和 读 文件 的 处 理 类 似 ， 首 先是 从 用 户 输入 的 buf 复制 数据 到 buffer 对 象 
的 内 存 页 ， 然 后 调用 fush_write_buffer 把 用 户 数据 填 入 文件 的 attribute 结构 。 
flush_write_buffer 的 代码 如 代码 清单 4-18 所 示 。 


代码 清单 4-18 flush_write_buffer 函数 





static int 
flush write buffer(struct dentry * dentry, struct sysfs buffer * buffer, size t count) 
{ 

struct attribute * attr = to_attr(dentry); 

struct kobject * kobj = to_kobj (dentry->d_parent); 

struct sysfs_ops * ops = buffer->ops; 


return ops->store(kobj,attr,buffer->page, count); 
} 





函数 flush_write_buffer 最 终 调用 了 ops 提供 的 store 函数 。 


f 
SU) 注意 

因为 读 函 教 调用 的 是 show 函数 ， 可 以 推理 ， 写 函 教 调用 的 store 函数 应 该 就 是 show 函 
数 的 反 过 程 ， 读 者 可 以 从 内 核 找 一 个 例子 ， 自 行 分 析 一 下 。 


4.4 kobject 结构 


kobject 结构 是 内 核定 义 的 一 种 特殊 结构 ， 和 sysfs 文件 系统 联系 很 紧密 。 前 文 sysfs 创建 
目录 时 ,传递 的 参数 就 是 一 个 kobject 结构 。 实 际 上 ， 可 以 认为 kobject 代表 sysfs 文件 系统 
的 一 个 目录 。 


4.4.1 kobject 和 kset 的 关系 


kset 结构 里 封装 了 一 个 kobject 结构 ， 同 时 包括 一 个 链表 头 ， 属 于 这 个 kset 的 所 有 
kobject 都 要 链接 到 kset 的 链表 头 。kobject 和 kset 的 关系 如 图 4-2 所 示 。 





一 kset child list 
一 一 一 ~ kobject->parent 
一 kobject->kset 


图 4-2 kset 和 kobject 关系 图 
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4.4.2 kobject 实例 : 总 线 的 注册 

为 了 理解 kobject， 我 们 从 内 核 挑选 一 个 实例 ， 就 是 总 线 的 注册 。 这 个 例子 极 好 地 解释 了 
kobject 的 应 用 。 第 3 章 已 经 分 析 过 ， 总 线 对 设备 和 驱动 具有 重要 作用 。 本 章 引 入 这 个 例子 ， 
既 可 以 解释 kobject 结构 的 使 用 ， 又 解释 了 总 线 的 一 些 重要 概念 ， 从 而 为 下 文 的 分 析 学 习 打 
好 基础 。 对 这 个 例子 的 分 析 从 总 线 的 注册 开始 。 

总 线 的 注册 使 用 platform_bus_init 函数 ， 它 的 代码 如 代码 清单 4-19 所 示 。 


代码 清单 4-19 使 用 platform_bus_init 函数 注册 总 线 








int _ init platform bus init(void) 
{ 

device_register (éplatform bus); 

return bus_register (gplatform bus_type); 
} 





platform_bus_init 函数 的 第 一 部 分 是 设备 注册 函数 device_register。 设 备 是 Linux 系统 比 
较 复 杂 的 概念 ， 此 处 先 跳 过 。 
然后 是 总 线 注册 函数 bus_register， 它 的 作用 是 把 总 线 对 象 注册 到 内 核 ， 代 码 如 代码 清单 
4-20 所 示 。 
代码 清单 4-20 调用 bus_register 函数 把 总 线 对 象 注册 到 内 核 


int bus_register (struct bus_type * bus) 
{ 
int retval; 
/* 给 kobject 同名 字 。 这 个 kobject 结构 就 是 bus 类 型 内 含 的 kxobject 对 象 */ 
retval = kobject set name(sbus->subsys.kset.kobj, "%s", bus->name); 
if (retval) 
goto out; 
/* 子 系统 注册 。 注 册 过 程 是 往 sysfs 文件 系统 写 入 一 个 目录 */ 
subsys_set_kset (bus，bus_subsys) 
retval = subsystem register (6bus->subsys) 7 
if (retval) 
goto out; 
/*devices 是 一 个 kset 对 象 ， 给 devices 内 含 的 kobject 对 象 赋 名 字 ， 然 后 注册 */ 
kobject_set_name (Sbus->devices.kobj, "devices"); 
bus->devices.subsys = ébus->subsys; 
retval = kset register(&bus->devices); 
if (retval) 
goto bus devices fail; 
/*drivers 注册 和 devices 注册 类 似 */ 
kobject_set_name (sbus->drivers.kobj, "drivers"); 
bus->drivers. subsys ~ ébus->subsys; 
bus->drivers.ktype = &ktype_driver; 
retval = kset_register (sbus->drivers); 
if (retval) 
goto bus drivers fail; 
erie /* 省略 klist 初始 化 代码 */ 


bus_add attrs (bus); 
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bus 对 象 内 含 两 个 kset， 一 个 是 devices， 另 一 个 是 drivers。devices 代表 总 线 包含 的 设备 
对 象 ， 而 drivers 代表 总 线 包 含 的 驱动 对 象 。bus 对 象 自身 是 一 个 subsystem 结构 ， 这 个 结构 
和 kset 基本 是 一 回 事 ， 只 是 多 了 一 个 信号 量 成 员 而 已 。 

bus_register 函数 可 以 总 结 为 三 个 注册 。 

口 第 一 是 注册 bus 对 象 自身 ; 

口 第 二 是 注册 bus 内 的 设备 对 象 ; 

口 第 三 是 注册 bus 内 的 驱动 对 象 。 

注册 bus 对 象 自身 使 用 了 subsystem_register 函数 ， 而 设备 和 驱动 的 注册 都 调用 了 kset_ 
Tegister 函数 。 因 为 subsystem 结构 和 kset 基本 相同 ， 它 们 的 注册 函数 也 相似 。 所 以 本 文选 择 
subsystem_register 为 例 进行 分 析 ， 它 的 代码 如 代码 清单 4-21 所 示 。 


代码 清单 4-21 使 用 subsystem_register 函数 注册 bus 对 象 自身 


int subsystem_register(struct subsystem * s) 
{ 
int error; 





subsystem init(s); 
if (!(error = kset add(ss->kset))) { 





subsystem_register 函数 进行 初始 化 之 后 ， 调 用 kset_add 完成 kset 结构 的 注册 功能 。 函 数 
kset_addr 的 功能 是 在 sysfs 文件 系统 增加 一 个 目录 文件 ， 它 的 代码 如 代码 清单 4-22 所 示 。 


代码 清单 4-22 调用 kset_add 函数 在 sysfs 文件 系统 增加 一 个 目录 文件 


int kset_add(struct kset * k) 
{ /* 如果 没 父 类 ， 使 用 subsys 的 kobj*/ 
if (!k->kobj.parent 56 !k->kobj.kset &5 k->subsys) 
k->kobj.parent = &k->subsys->kset.kobj; 





return kobject_add (sk->kobj); 
} 





kset_add 函数 封装 了 kobject_add 函数 ，kobject_add 执行 增加 一 个 目录 文件 的 功能 ， 它 的 
代码 如 代码 清单 4-23 所 示 。 
代码 清单 4-23 kobject_add 函数 


int kobject _add(struct kobject * kobj) 
{ 

int error = 0; 

struct kobject * parent; 

/* 获取 kobj 的 父 结 构 */ 

Parent = kobject get (kobj->parent); 


…e/* 省 略 参数 检查 的 代码 */ 





if (kobj->kset) { 
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spin_lock (&kobj->kset->list_ lock); 


if (!parent) 
parent = kobject get(&kobj->kset->kobj); 
/* kobj 链接 到 kset 链表 的 尾部 */ 
list_add tail (kobj->entry, skobj->kset->l1ist); 
spin_unlock(&kobj->kset->list_lock); 
) 
kobj->parent = parent; 


/* 创建 一 个 目录 */ 
error = create_dir (kobj); 
} 





kobject_add 函数 调用 create_dir 函数 创建 一 个 目录 文件 。create_dir 函数 的 输入 参数 是 
kobj 结构 ， 要 为 这 个 结构 创建 一 个 目录 文件 ， 它 的 代码 如 代码 清单 4-24 所 示 。 


代码 清单 4-24 调用 create_dir 函数 创建 一 个 目录 文件 





static int create dir(struct kobject * kobj) 
{ 
int error = 07 
if (kobject_name (kobj)) { 
error = sysfs_create dir (kobj); 
if (lerror) { 
/* 创建 隶属 于 kobj 的 属性 文件 */ 
if ((error = populate_dir(kobj))) 





create_dir 函数 很 简单 ， 它 调用 了 sysfs 文件 系统 的 sysfs_create_dir 函数 创建 了 一 个 目录 
文件 。sysfs_create_dir 函数 在 本 章 前 面 已 分 析 过 。 

populate_dir 函数 的 作用 是 根据 kobj 结构 内 含有 的 attribute 结构 创建 文件 ， 对 每 个 
attribute 结构 都 调用 sysfs 文件 系统 创建 文件 的 sysfs_create_file 函数 创建 一 个 文件 。 

返回 到 subsystem_register 函数 ， 它 的 最 终 作 用 就 是 创建 一 个 目录 ， 目 录 名 就 是 总 线 的 名 
字 ， 在 这 个 目录 下 又 创建 一 些 属性 文件 。 而 kset_register 函数 的 作用 也 是 创建 一 个 目录 。 这 
样 就 清楚 了 ，bus_register 实际 创建 了 一 个 名 字 和 总 线 名 相同 的 目录 ， 在 这 个 目录 下 又 创建 了 
devices 和 drivers 两 个 目录 。 这 些 目 录 和 目录 下 的 属性 文件 ， 共 同 展示 了 一 条 总 线 和 总 线 的 
设备 以 及 驱动 的 属性 信息 。 


4.5 本 章 小 结 

内 核 中 类 似 sysfs 文件 系统 还 有 不 少 ， 比 如 ramfs、debugfs、configfs、proc 等 。 利 用 本 
章 所 学 的 知识 点 ， 读 者 可 以 自行 分 析 这 些 文件 系统 ， 了 解 它 们 文件 和 目录 的 组 织 方式 以 及 文 
件 的 读 写 方式 。 
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字符 设备 和 input 设备 


Linux 操作 系统 把 设备 划分 为 字符 设备 和 块 设备 ( Linux 操作 系统 的 网 络 设备 是 特殊 的 ， 
既 不 是 字符 设备 ， 也 不 是 块 设备 ， 而 是 一 个 单独 的 类 型 )。 对 从 事 Linux 驱动 的 程序 员 来 说 ， 
要 么 是 字符 设备 驱动 ， 要 么 是 块 设备 驱动 。 

一 个 字符 设备 可 以 非常 简单 ， 以 至 于 很 多 程序 员 把 字符 设备 当 作 系统 控制 的 一 种 手段 ， 
通过 字符 设备 的 IO control 函数 与 内 核 交 换 数据 。 但 是 实际 上 ，Linux 内 核 系统 很 多 时 候 是 
把 字符 设备 当 作 一 个 框架 来 用 ， 这 种 用 法 就 复杂 多 了 。 

那么 什么 是 字符 设备 和 块 设备 ?本 章 我 们 分 析 字 符 设备 。 


5.1 文件 如 何 变 成 设备 

回顾 第 2 章 介绍 的 最 简单 文件 系统 aufs， 通 过 aufs_get_inode 为 每 个 文件 创建 它 的 inode 
对 象 。 可 以 看 到 ， 对 文件 和 目录 都 有 各 自 的 文件 操作 函数 和 inode 操作 函数 。 但 是 默认 情况 
下 ,我 们 用 一 个 init_special_inode 函数 给 对 象 赋值 。 


5.1.1 init_special_inode 函数 
通过 init_special_inode 函数 使 文件 变 成 设备 ， 字 符 设备 和 块 设备 开始 浮 出 海面 ， 所 以 有 
必要 首先 分 析 这 个 函数 ， 它 的 代码 如 代码 清单 5-1 所 示 。 
代码 清单 5-1 init_special_inode 函数 


void init special inode(struct inode *inode，umode t mode，dev_ t rdev) 
{ 





inode->i_mode = mode; 

if (S_ISCHR (mode)) { 
inode->i_fop = sdef_chr_fops; 
inode->i_rdev = rdev; 

} else if (Ss_ISBLK(mode)) { 
inode->i fop = édef blk fops; 
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inode->i_rdev = rdev; 
} else if (S_ISFIFO(mode)) 
inode->i_fop = kdef fifo_fops; 
else if (S_ISSOCK (mode)) 
inode->i fop = gbad_sock_fops; 
else 
printk (KERN_DEBUG "init special inode: bogus i_mode (%0)\n", 
mode); 
} 





这 段 代码 很 简单 ， 如 果 是 字符 设备 ， 它 的 文件 操作 结构 指针 被 赋值 为 def_chr_fops ; 如 
果 是 块 设备 ， 则 被 赋值 为 def blk_fops。 同 时 inode 的 i_rdev 被 赋值 为 rdev， 这 个 rdev 其 实 
就 是 由 主 设备 号 和 从 设备 号 生成 的 设备 号 。 

通过 这 个 特别 的 函数 ，inode 的 文件 函数 指针 i_fop 被 替换 ， 从 此 indoe 不 再 是 普通 的 文 
件 inode， 而 是 分 别 可 以 代表 字符 设备 、 块 设备 、fifo 和 socket 的 特殊 inode。 


5.1.2 def_chr_fops 结构 
本 章 重点 分 析 为 字符 设备 提供 的 def_chr_fops 结构 ， 它 的 代码 如 代码 清单 5-2 所 示 。 
代码 清单 5-2 def_chr_fops 结构 


const struct file_operations def chr_fops = { 
.open = chrdev_open, 
}s 
int chrdev_open (struct inode * inode, struct file + filp) 
{ 
struct cdev *p; 
struct cdev *new = NULL; 
int ret = 0; 





spin_lock (scdev_lock) 7 
p = inode->i_cdev; 


/* 如 果 字 符 设备 不 存在 */ 
if (!p) { 
struct kobject *kobj; 
int idx; 
spin_unlock (scdev_lock); 
/* 通过 kobj_lookup 查找 字符 设备 的 kobj 结构 */ 
kobj = kobj_lookup(cdev map, inode->i rdev, sidx); 
if (!kobj) 
return -ENXIO; 
/* 调用 container 方法 ， 获 得 cdev 对 象 “/ 
new = container_of (kobj, struct cdev, kobj); 
spin_lock(scdev_lock); 
/* 再 次 检查 p*/ 
Pp = inode->i_cdev; 
if (!P) { 
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/* 赋值 。inode 的 字符 设备 指针 指向 发 现 的 字符 设备 */ 
inode->i_cdev = P ~ new; 
inode->i_cindex = idx; 
list add(sinode->i devices, &p->list); 
new = NULL; 
} else if (!cdev_get(p)) 
ret = -ENXIO; 
) else if (!cdev_get(p)) 
ret = -ENXIO; 
spin_unlock (scdev_lock); 
cdev_put (new) 7 
if (ret) 
return ret; 
/* 获得 设备 的 函数 指针 ， 对 input 设备 来 说 ,就 是 input_fops*/ 
{llp->f_op = fops_get (p->ops); 
if (!filp->f op) { 
cdev_put (p); 
return -ENXIO; 
} 
/* 这 个 open 函数 就 是 input 设备 的 input_open_file*/ 
if (filp->f_op->open) { 
/* 大 内 核 锁 */ 
lock_kernel ()7 
ret = filp->f_op->open (inode, filp); 
unlock_kernel (); 
} 
if (ret) 
cdev_put (p) 
return ret; 
} 





chrdev_open 函数 前 面 说 明了 ， 每 次 打开 一 个 字符 设备 的 时 候 ， 都 调用 这 个 函数 。 它 首 
先 根据 设备 号 调用 kobj_lookup 搜索 注册 的 字符 设备 对 象 ， 如 果 找到 字符 设备 ， 执 行 字符 设 
备 的 open 函数 ， 找 不 到 则 返回 错误 。 

Linux 系统 提供 了 mknod 程序 ， 使 用 这 个 程序 用 户 可 以 根据 主 从 设备 号 创建 特殊 文 
件 ， 比 如 字符 设备 文件 或 者 块 设备 文件 。 从 内 核 的 角度 分 析 ，mknod 为 特殊 文件 创建 了 一 
个 inode 结构 和 dentry 结构 ，inode 结构 的 成 员 包 含 主 从 设备 号 和 设备 类 型 ， 然 后 调用 init_ 
special_inode 函数 为 设备 文件 的 inode 设置 不 同 的 函数 指针 。 打 开设 备 文件 时 ， 通 过 chrdev_ 
open 函数 真正 调用 设备 驱动 本 身 的 open 函数 ， 当 然 ， 前 提 是 已 经 注册 了 设备 驱动 函数 。 


5.2 input 设备 的 注册 


为 了 正确 理解 和 应 用 ,需要 一 个 典型 的 字符 设备 示例 。 本 节 直 接 从 内 核 选择 一 个 例子 ， 
就 是 input 设备 。 这 个 设备 不 但 典型 ， 而 且 具 有 很 大 实用 价值 。input 是 一 个 虚拟 的 设备 ,在 
Linux 系统 中 ， 键盘、 鼠标、 触摸 屏 和 游戏 杆 都 要 由 input 设备 统一 管理 。 
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input 设备 是 个 字符 设备 ， 它 是 如 何 注册 设备 驱动 的 ”这 要 从 input 设备 的 初始 化 函数 
input_init 开始 。 


5.2.1 主 从 设备 号 
Linux 系统 通过 设备 号 来 区 分 不 同 的 设备 。 设 备 号 由 两 部 分 组 成 : 主 设备 号 和 从 设备 号 。 
下 面 摘录 了 系统 定义 的 一 些 主 设备 号 (来 自 include/linux/major.h)。 


#define UNNAMED_MAJOR 0 
#define MEM_MAJOR 1 
#define RAMDISK_MAJOR 1 
#define FLOPPY_MAJOR 2 
#define PTY MASTER MAJOR 2 
tdefine IDEO_MAJOR 3 
+#define HD_MAJOR I 
#define PTY_SLAVE MAJOR 3 
4 
6 
7 
7 
8 
9 





DE0_MAJOR 


#define TTY_MAJOR 
#define TTYAUX_MAJOR 
#define LP_MAJOR 

#define VCS_MAJOR 

#define LOOP_MAJOR 
#define SCSI_DISKO_MAJOR 
#define SCSI_TAPE MAJOR 


#define MD_MAJOR 9 
#define MISC_MAJOR 10 
tdefine SCSI_CDROM MAJOR 11 
#define MUX_MAJOR 11 
#define XT_DISK_MAJOR 13 
#define INPUT_MAJOR 13 


系统 定义 了 多 个 主 设备 号 ， 本 节 要 讨论 的 input 设备 占 第 13 号 主 设备 号 。 从 设备 号 区 分 
归属 于 同一 个 主 设备 的 独立 设备 。 比 如 ， 系 统 中 有 几 个 硬盘 ， 它 们 占用 了 不 同 的 次 设备 号 。 

也 许 读者 会 想 ，input 设备 包括 各 种 各 样 的 输入 设备 。 别 说 键盘 、 鼠 标的 不 同 ， 就 是 鼠标 
之 间 也 有 各 种 各 样 的 型 号 ， 难 道 这 些 键盘 、 鼠 标 、 游 戏 杆 都 用 的 同一 个 驱动 ? 

这 个 问题 ， 从 内 核 的 角度 很 容易 理解 。 实 际 上 ， 字 符 设备 input 是 设备 的 一 个 聚合 层 ， 
众多 的 驱动 和 设备 被 input 封装 ， 经 过 这 个 封装 层 之 后 ， 键 盘 和 鼠标 等 设备 就 各 行 其 是 ， 分 
别 由 不 同 的 驱动 所 控制 。 而 且 不 仅仅 input 是 一 个 封装 层 ， 在 input 之 下 ， 系 统 还 提供 了 几 个 
层次 的 封装 。 这 是 Linux 内 核 设 计 的 一 个 重要 思想 。 在 内 核 代码 的 阅读 过 程 中 ， 我 们 将 发 现 
越 来 越 多 的 这 种 分 层 架 构 。 这 也 是 Linux 内 核 设 计 向 面向 对 象 设计 靠拢 的 一 个 标志 ， 在 本 文 
的 叙述 中 ， 也 大 量 使 用 “对 象 ”这 个 词 来 描述 内 核 中 各 个 层次 生成 的 数据 结构 。 以 一 个 普通 
的 键盘 来 说 ， 因 为 键盘 属于 串口 设备 (假定 ， 当 然 也 有 USB 键盘 等 )， 所 以 内 核 要 创建 一 个 
串口 设备 ， 同 时 安装 相应 的 串口 驱动 。 而 键盘 属于 input 设备 范畴 ， 它 也 要 创建 一 个 input 设 
备 ， 并 安装 相应 的 input 驱动 。 
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5.2.2 把 input 设备 注册 到 系统 
input_init 函数 的 作用 是 把 input 设备 注册 到 系统 ， 它 的 代码 如 代码 清单 5-3 所 示 。 
代码 清单 5-3 input_init 函数 





static int _ init input_init (void) 
{ 
int err; 
/*input 要 注册 input 类 。 这 部 分 先 跳 过 */ 
err = class_register (sinput_class); 
if (err) 1 
printk (KERN_ERR "input: unable to register input_dev class\n"); 
return err; 
} 
/* 在 proc 目录 下 创建 input 相关 的 文件 */ 
err = input_proc_init(); 
if (err) 
goto faill; 


err = register chrdev (INPUT MAJOR, "input", &input_fops); 





input_init 函数 最 终 调用 register_chrdev 函数 来 注册 input 驱动 ， 它 的 代码 如 代码 清单 5-4 
所 示 。 
代码 清单 5-4 register_chrdev 函数 





int register chrdev(unsigned int major, const char *name, 
const struct file_operations *fops) 
{ 
struct char device_struct *cd; 
struct cdev *cdev; 
char *s; 
int err = -ENOMEM; 


cd = _ register chrdev_region(major, 0, 256, name); 
if (IS_ERR(cd)) 
return PTR_ERR(cd); 


/* 申请 一 个 cdev 对 象 */ 
cdev ~ cdev alloc(); 
if (!cdev) 

goto out2; 


cdev->owner = fops->owner; 
cdev->ops = fops; 

/* 设置 字符 设备 kobj 结构 的 名 字 */ 

kobject_set_name (cdev->kobj, "$s", name); 

for (s = strchr(kobject name(&cdev->kobj),'/'); s; s = strchr(s, '/'))*s = '! 





/*cdev 插入 链表 */ 
err = cdev add(cdev, MKDEV (cd->major, 0), 256); 
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register_chrdev 函数 实际 执行 了 两 个 登记 ， 一 个 是 登记 设备 的 区 间 ， 另 一 个 登记 是 注册 
一 个 字符 设备 。 首 先 分 析 设备 区 间 的 登记 。 


5.2.3 设备 区 间 的 登记 
区 间 是 主 设备 号 和 从 设备 号 共同 占有 的 一 段 空 间 ，register_chrdev 函数 要 登记 0 ~ 256 
的 从 设备 号 区 间 ， 这 个 区 间 之 前 不 能 被 占用 。 登 记 区 间 通 过 _register_chrdev_region 函数 实 
现 ， 它 的 代码 如 代码 清单 5-5 所 示 。 
代码 清单 5-5 __register_chrdev_region 函数 





static struct char device_struct * 
_ register chrdev_region(unsigned int major, unsigned int baseminor, 
int minorct, const char *name) 
{ 
struct char device_struct *cd, **cp; 
int ret = 07 
int i} 


cd ~ kzalloc(sizeof (struct char device struct), GFP_KERNEL); 
if (cd == NULL) 
return ERR_PTR (-ENOMEM) 7 


mutex_lock (&chrdevs_lock); 


/* 主 设备 号 为 0， 说 明 这 个 设备 没 指定 设备 号 ， 需 要 分 配 一 个 */ 
if (major -= 0) { 
for (i = ARRAY_SIZE(chrdevs)-1; 1 > 0; 1--) { 
if (chrdevs[i] ~- NULL) 
break; 
} 


if (i == 0) { 
ret = -EBUSY; 
goto out; 
要 
major = i; 
ret = major; 
} 





1 ) _register_chrdev_region 函数 第 一 部 分 首先 创建 一 个 char_device_struct 结构 ， 然 后 要 
考虑 输入 的 主 设备 号 为 0 的 情况 。 这 种 情况 下 ， 要 为 字符 设备 分 配 一 个 主 设备 号 。 

分 配 主 设备 号 的 算法 是 从 高 到 低 遍 历数 组 chrdevs， 如 果 发 现 某 个 主 设备 号 为 空 ， 则 分 配 
给 字符 设备 。chrdevs 是 全 局 变量 ， 它 是 个 255 个 元 素 的 指针 数组 ， 对 应 设备 的 主 设备 号 。 如 
果 输入 的 主 设备 号 大 于 255， 则 取 其 余数 。 这 个 结构 数组 保存 了 所 有 的 主 设备 号 和 从 设备 号 。 


cd->major = major; 
cd->baseminor = baseminor; 


86 * 第 5 章 字符 设备 和 input 设备 


cd->minorct = minorct; 
strncpy (cd->name, name, 64); 


/* 根据 主 设备 号 计算 索引 ， 实 际 是 主 设备 号 除 以 255 的 余数 */ 


i = major_to_index (major); 


/* 找 一 个 未 占用 的 区 则 */ 
for (cp = &chrdevs[i]; *cp; cp = &(*cp)->next) 
if ((*cp)->major > major 11 
((*cp) ->major == major 55 (*cp)->baseminor >= baseminor)) 
break; 
if (*cp 65 (*cp)->major == major &é 
(*cp) ->baseminor < baseminor + minorct) { 
ret ~ -EBUSY; 
goto out; 
} 
cd->next = *cp; 
“ep = cdi 
mutex_unlock (schrdevs_lock); 
return cd; 


2 ) _register_chrdev_region 第 二 部 分 从 数组 chrdevs 找到 未 占用 的 区 间 。 首 先 通 过 主 设 
备 号 索引 获得 结构 char_device_struct， 然 后 遍历 char_device_struct 结构 的 单 向 链表 ， 依 次 比 
较 从 设备 号 ， 找 到 一 个 合适 的 区 间 。 最 后 将 创建 的 字符 设备 结构 cd 链接 到 单 向 链表 ， 完 成 
字符 设备 区 间 的 登记 。 


5.2.4 注册 字符 设备 


返回 register_chrdev 函数 ，cdev_add 函数 的 功能 是 注册 字符 设备 ， 它 的 代码 如 代码 清 
单 5-6 所 示 。 


代码 清单 5-6 cdev_add 函数 


int cdev_add(struct cdev *p, dev_t dev, unsigned count) 
{ 

p->dev = dev; 

P->count = count; 

return kobj map(cdev map, dev, count, NULL, exact_match, exact_lock, p); 
} 








cdev_add 函数 要 把 复合 设备 号 (由 主 设备 号 和 从 设备 号 计算 而 来 ) 和 设备 区 间 注 册 到 系 
统 ， 这 是 通过 调用 kobj_map 函数 实现 的 。 

kobj_map 和 前 一 节 学 习 的 kobj_lookup 是 同一 组 函数 ， 目 的 就 是 通过 系统 的 指针 数组 和 
链表 管理 字符 设备 ，kobj_map 函数 的 代码 如 代码 清单 5-7 所 示 。 


代码 清单 5-7 kobj_map 函数 


int kobj_map(struct kcbj_map *domain，dev_t dev, unsigned long range, 
struct module *module, kobj_probe_t *probe, 
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int (*lock) (dev_t, void *), void *data) 


/* 计算 设备 输入 的 range 可 能 占用 几 个 主 设备 号 。 对 256 这 个 range 来 说 ， 只 占用 一 个 主 设备 号 */ 
unsigned n = MAJOR(dev + range - 1) - MAJOR(dev) + 1; 

unsigned index = MAJOR (dev); 

unsigned i; 

struct probe *p; 


if (n > 255) 
n = 255; 


p ~ kmalloc(sizeof(struct probe) * n, GFP_KERNEL); 


if (p = NULL) 

return -ENOMEM; 

/* 为 pp 同 值 */ 

for (i = 0; i <n: itt, pt+) { 
p->owner = module; 
P->get = probe; 
p->lock = lock; 
p->dev ~ dev; 
p->range = range; 
p->data = data; 

} 

mutex_lock (domain->lock) ; 

for (i = 0, p -= ny i <n; itt, pt+, indext++) ( 
struct probe **s = &domain->probes[index % 255]17 
while (*s 655 (*s)->range < range) 

Ss= &(*s)->next; 

p->next = *s; 
vs =p; 

} 

mutex_unlock (domain->lock); 

return 0; 

} 





系统 提供 了 一 个 kobj_map 结构 的 指针 cdev_map， 它 包含 了 一 个 指针 数组 probes， 数 组 
元 素 是 255 个 ， 每 个 主 设备 号 对 应 probes 数组 的 一 个 元 素 。 每 个 probes 结构 包含 一 个 单 向 链 
表 ， 所 有 具有 相同 主 设备 号 的 字符 设备 ( 主 设备 号 大 于 255 要 取 其 余数 ) 都 链接 到 单 向 链表 。 
kobj_map 函数 遍历 单 向 链表 ， 找 到 一 个 合适 的 位 置 ， 安 放 创 建 的 probe 结构 ， 完 成 字符 设备 
的 注册 过 程 。 


5.2.5 打开 input 设 备 

对 设备 进行 读 写 前 ， 首 先 要 打开 设备 。 根 据 第 2 章 文件 打开 过 程 的 分 析 和 本 章 字符 设备 
的 分 析 ， 在 内 核 中 打开 设备 最 后 调用 了 设备 驱动 的 open 函数 。 上 一 节 分 析 的 input_init 函数 
注册 了 input 设备 的 open 函数 ， 也 就 是 input_open_file 函数 ， 它 的 代码 如 代码 清单 5-8 所 示 。 
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代码 清单 5-8 input_open_file 函数 





static int input_open_file(struct inode *inode, struct file *file) 
{ 
/* 根据 次 设备 号 获得 input_handler*/ 
struct input handler *handler = input table[iminor(inode) >> 5]; 
const struct file operations *old fops, *new fops = NULL; 
int err; 
/* 删 掉 异 常 处 理 代 码 */ 
if (!new_ fops->open) { 
fops_put (new_fops); 
return -ENODEV; 
1 
/* 函数 指针 被 替换 */ 
old_fops = file->f_op; 
file->f_op = new_fops; 
/* 调用 新 的 open 函数 */ 


err = new_fops->open (inode, file); 





input_open_file 函数 最 重要 的 部 分 是 input_handler 的 应 用 。input_table 是 个 数组 ， 包 含 8 
个 input_handler 指针 。input 设备 封装 了 8 个 不 同 的 handler， 每 个 对 应 一 个 次 设备 号 。 设 备 
打开 时 通过 次 设备 号 获得 注册 的 input_handler， 然 后 调用 input_handler 提供 的 open 函数 。 


5.3 input 设备 架构 


input 本 身 是 个 字符 设备 ， 但 是 经 过 层 层 分 析 ， 原 来 input 设备 里 面 隐藏 了 众多 的 设备 和 
驱动 ，input 设备 其 实 是 设备 和 驱动 的 封装 。 那 么 这 些 设备 和 驱动 是 怎么 注册 进去 的 ? 内 核 为 
何 专门 做 一 个 封装 层 来 汇聚 这 些 设备 ?内 核 源 码 根 目录 的 drivers/inpuvinputc 本 身 并 不 复杂 ， 
我 们 重点 分 析 两 个 函数 input_register_handler 和 input_register_device 就 可 以 了 解 这 些 问题 。 


5.3.1 注册 input 设备 的 驱动 


第 一 步 分 析 input_register_handler 函数 。 这 个 函数 的 作用 是 注册 input 设备 的 驱动 ， 它 的 
代码 如 代码 清单 5-9 所 示 。 


代码 清单 5-9 input_register_handler 函数 


void input_register handler (struct input_handler *handler) 
{ 

struct input_dev *dev; 

struct input handle *handle; 

struct input_ device id *id; 





if (!handler) 
return; 


INIT_LIST_HEAD(&handler->h_list); 
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/* 注册 到 input_table，input_table 是 个 8 元 素 的 input_handler 指针 数组 */ 
if (handler->fops != NULL) 
input_table[handler->minor >> 5] = handler; 


/*handler 链接 到 input_handler_l1ist 的 链表 头 */ 
list_add tail(shandler->node, éinput_ handler list); 


list_for each entry(dev, sinput_dev_list, node) 
if (!handler->blacklist || !input_ match device (handler->blacklist, dev)) 
if ((id = input_match_device (handler->id_table, dev))) 
if ((handle = handler->connect (handler, dev, id))) { 
input_link_handle (handle); 
if (handler->start) 
handler->start (handle); 





} 


input_wakeup_procfs_readers (); 
} 





input_register_handler 函数 代码 的 最 后 一 段 是 遍历 所 有 注册 的 input 设备 ， 检 查 能 否 和 注 
册 的 handler 匹配 。 

检查 原则 如 下 : 

口 检查 设备 是 否 在 handler 的 黑 名 单 里 ; 

口 检查 handler 的 ID 表 是 否 和 设备 的 ID 表 相 等 。 

如 果 handler 和 设备 匹配 ， 调 用 handler 提供 的 connect 函数 和 设备 建立 连接 。 

到 此 可 以 总 结 ，input 设备 维护 了 两 个 链表 ， 一 个 是 设备 链表 ， 另 一 个 是 handler 链表 
(handler 可 以 看 做 驱动 )， 注 册 一 个 驱动 要 和 所 有 的 设备 一 一 匹配 ， 看 是 否 适合 。 这 就 是 input 
框架 的 管理 机 制 。 


5.3.2 匹配 input 管理 的 设备 和 驱动 


input 管理 的 设备 和 驱动 是 如 何 匹 配 的 ? 这 是 input_match_device 函数 实现 的 功能 ， 所 以 
有 必要 了 解 它 的 代码 ， 理 清 匹配 的 依据 ， 如 代码 清单 5-10 所 示 。 


代码 清单 5-10 input_match_device 函数 








static struct input_device_id *input_match_device(struct input device id *id, 
struct input_dev *dev) 
{ 

int i; 


for (; id->flags 11 id->driver info; id++) { 
if (lid->flags & INPUT_DEVICE_ ID_MATCH BUS) 
if (id->bustype != dev->id.bustype) 
continue; 


if (id->flags & INPUT_DEVICE_ID_MRTCH_VENDOR) 
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if (id->vendor != dev->id.vendor) 
continue; 


if (id->flags & INPUT_DEVICE ID MATCH PRODUCT) 
if (id->product != dev->id.product) 
continue; 





if (id->flags 5 INPUT_DEVICE_ID_MRTCH_VERSION) , 
if (id->version !- dev->id.version) 
continue; 

/* 逐一 检查 事件 类 型 是 否 匹配 */ 

MATCH_BIT (evbit, EV_MAX); 

MATCH_BIT (keybit, KEY MAX); 

MATCH_BIT (relbit, REL_MAX); 

MATCH_BIT (absbit, ABS_MAX); 

MATCH_BIT (mscbit, MSC_MAX); 

MATCH_BIT (ledbit, LED_MAX); 

MATCH_BIT (sndbit, SND_MAX); 

MATCH_BIT (ffbit， FF_MAX); 

MATCH_BIT (swbit, SW_MAX); 


return id; 


8 
return NULL; 





input_match_devicenput 函数 逐一 对 比 驱动 的 ID 表 和 设备 的 ID 表 ， 检 查 它们 的 总 线 类 
型 、 制 造 商 、 产 品 号 和 版 本 ， 以 及 事件 类 型 是 否 相 等 。 


5.3.3 注册 input 设备 
分 析 完 input_register_handler， 可 以 返回 input_register_device 函数 。 这 个 函数 作用 是 注 
册 input 设备 ， 它 的 代码 如 代码 清单 5-11 所 示 。 


代码 清单 5-11 input_register_device 函数 


int input_register_device(struct input_dev *dev) 
static atomic_t input_no = ATOMIC_INIT(0); 
struct input_handle *handle; 
struct input_handler *handler; 
struct input device id *id; 
const char *path; 
int error; 





set_bit (EV_SYN, dev->evbit); 


/* 初始 化 设备 的 timer*/ 


init timer (dev->timer); 
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if (!dev->rep[REP DELAY] 56 !dev->rep[REP PERIOD]) { 
dev->timer.data = (long) dev; 
dev->timer. function = input_repeat_key; 
dev->rep[REP_DELAY] = 25 
dev->rep[REP_PERIOD] = 33; 






} 


/* 设备 加 入 input 的 设备 列表 */ 
INIT_LIST_HEAD(&dev->h_list); 
list_add tail(&dev->node, sinput_dev_ list); 





input_register_device 函数 第 一 部 分 是 初始 化 设备 ， 将 设备 加 入 总 的 input 设备 链表 。 这 
样 ， 通 过 链表 就 可 以 遍历 所 有 的 input 设备 。 同 时 初始 化 设备 的 timer。 这 个 timer 的 作用 是 
设置 的 定时 时 间 到 达 ， 自 动 重复 输入 input 设备 的 按键 值 。 

/* 指定 设备 属于 input 类 */ 


dev->cdev.class = sinput_class; 
snprintf (dev->cdev.class_id, sizeof (dev->cdev.class_id), 
"input$ld"，.(unsigned long) atomic_inc_return(sinput_no) - 1); 


error = class_device_add (sdev->cdev); 
if (error) 
return error; 


error = sysfs_create group(sdev->cdev.kobj, sinput_dev_attr group); 
if (error) 
goto faill; 


error ~ sysfs create group{(sdev->cdev.kobj, &input_dev_id attr_group); 
if (error) 
goto fail2; 


error = sysfs_create_group(&dev->cdev.kobj, &input_dev_caps_attr_ group); 
if (error) 
goto fail3; 


input_register_device 函数 第 二 部 分 通过 sysfs 文件 系统 创建 设备 的 属性 文件 。 文 件 在 系 
统 根 目录 /sys/input/input*/ 里 面 。sysfs 文件 系统 第 4 章 已 经 介绍 过 ， 此 处 略 过 。 为 增加 感性 
认识 ,读者 可 以 比较 一 下 创建 的 文件 是 否 和 代码 的 设计 一 致 。 


/* 省 略 输出 设备 名 字 的 部 分 代码 */ 
list_for_each entry(handler, &input_ handler list, node) 
if (!handler->blacklist || !input_match_device (handler->blacklist, dev)) 
if ((id = input_match device (handler->id table, dev))) 
if ((handle = handler->connect (handler, dev, id))) { 
input_link handle (handle); 
if (handler->start) 
handler->start (handle); 
} 
input wakeup procfs_readers(); 
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input_register_device 第 三 部 分 的 代码 和 input_register_handler 函数 最 后 的 代码 很 像 ， 不 
过 这 次 是 遍历 所 有 的 驱动 ， 检 查 是 否 和 设备 匹配 。 匹 配 的 算法 同样 是 先 检查 驱动 的 黑 名 单 ， 
再 检查 驱动 和 设备 的 ID 表 是 否 适合 。 

分 析 完 input 框架， 引出 了 一 个 问题 : 内 核 为 什么 要 加 这 样 一 个 层次 ? 所 有 的 层次 设计 
主要 是 为 了 复 用 代码 ， 简 化 其 他 层次 的 工作 量 。input 汇聚 的 设备 ， 不 管 是 键盘 、 鼠 标 还 是 游 
戏 杆 触摸 屏 ， 它 们 的 公共 特征 就 是 截获 用 户 的 输入 ， 并 交 给 操作 系统 处 理 。 所 以 input 提供 
了 重要 的 事件 处 理 函 数 input_event， 通 过 这 个 函数 上 报 用 户 输入 (实际 上 输入 到 终端 的 输入 
buffer)。 那 么 具体 设备 的 驱动 (如 键盘 驱动 )， 只 要 调用 input_event 就 可 以 上 报 用 户 的 按键 输 
人 ， 节 省 了 设备 驱动 的 工作 量 。 


5.4 本 章 小 结 

内 核 驱动 中 ， 类 似 input 这 样 的 框架 还 有 一 些 。 例 如 ， 根 目录 下 的 sound/core/sound.c， 
定义 了 一 个 字符 设备 来 统一 管理 声音 设备 ;目录 drivers/video/fbmem.c， 同 样 定 义 了 一 个 字符 
设备 来 管理 frame buffer 对 象 。 这 样 的 架构 还 有 很 多 ， 这 些 相似 的 架构 分 析 掌 握 一 种 就 可 以 
触 类 旁 通 ， 大 大 减少 学 习 内 核 的 时 间 。 读 者 可 以 试 着 分 析 这 些 驱动 ， 从 而 加 强 对 Linux 驱动 
架构 的 理解 和 掌握 。 

在 这 里 ， 有 必要 串联 一 下 知识 点 ， 帮 助 我 们 更 全 面 地 理解 Linux 设备 和 驱动 的 架构 。 回 
顾 前 文 我 们 知道 ， 设 备 配置 表 、 总 线 和 驱动 是 整个 内 核 设备 架构 的 三 大 层次 。 设 备 配置 表 描 
述 了 设备 本 身 物理 特性 (以 PCI 设备 为 例 )， 包 括 设备 的 寄存 器 信息 和 内 存 信息 ; 而 总 线 ， 不 
管 是 物理 上 存在 的 PCI 总 线 ， 或 者 其 他 并 不 真正 存在 的 虚拟 总 线 (比如 platform 总 线 )， 作 为 
.一 个 软件 架构 ， 它 的 作用 是 一 个 容器 ， 把 设备 和 驱动 都 容纳 在 其 中 。 通 过 总 线 ， 可 以 发 现 设 
备 、 为 设备 发 现 驱 动 、 配 置 设备 信息 。 

通过 本 章 的 分 析 ， 我 们 了 解 到 设备 驱动 本 身 是 可 以 分 为 多 个 层次 的 ， 对 一 个 键盘 设备 而 
言 ， 它 的 驱动 分 为 input 层 、 虚 拟 键盘 层 驱动 (input_handler 层 )、 真 实 键盘 驱动 层 。 第 7 章 
我 们 还 要 详细 分 析 键盘 的 这 种 多 层次 结构 。 


第 6 章 
platform 总 线 


从 input 设备 和 字符 设备 的 分 析 中 ,我们 初步 理解 了 总 线 发 现 设备 、 管 理 设备 、 配 置 
设备 的 功能 。 一 般 来 说 ， 总 线 都 是 物理 存在 的 ， 但 是 Linux 系统 提供 了 一 种 简单 的 总 线 
”platform。 
platform 并 不 是 一 种 物理 存在 的 总 线 ， 而 是 个 逻辑 概念 。 现 代 的 PC 机 系统 通常 提供 了 
一 条 根 总 线 ( PCI 总 线 ) 管理 设备 ， 但 是 有 些 设备 并 没有 挂 载 在 PCI 总 线 上 (比如 键盘 、 鼠 
标的 控制 器 )， 所 以 不 能 由 PCI 总 线 管理 ， 于 是 Linux 内 核 虚拟 了 platform 总 线 来 统一 管理 
这 种 设备 。 


6.1 从 驱动 发 现 设备 的 过 程 


platform 总 线 虽然 是 很 简单 的 总 线 ， 但 是 一 样 具有 总 线 的 通用 功能 。 通 过 分 析 这 种 简单 
的 总 线 ， 可 以 帮助 我 们 理解 总 线 的 概念 和 总 线 对 设备 和 驱动 的 管理 ， 方 便 后 面 对 复 杂 总 线 的 
分 析 ， 比 如 说 PCI 总 线 。 

我 们 选 的 例子 是 q40kbd， 在 drivers/input/serio 目录 里 。 这 是 一 个 键盘 控制 器 驱动 ， 它 使 
用 了 platform 总 线 。 


6.1.1 驱动 的 初始 化 
设备 驱动 一 般 从 它 的 初始 化 函数 开始 分 析 ，q40kbd 驱动 的 初始 化 函数 是 q40kbd_init， 它 
的 作用 是 把 驱动 程序 注册 到 系统 ， 代 码 如 代码 清单 6-1 所 示 。 
代码 清单 6-1 q40kbd_init 函数 


static int _ init q40kbd_init (void) 
{ 
int error; 





if (!MRACH IS 0Q40) 
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return -EIO; 
/* 驱动 作为 platform 总 线 驱 动 注册 */ 
error = platform driver register(&q40kbd driver); 





if (error) 
return error; 


/* 分 配 一 个 Platform 设备 */ 
q40kbd_device = platform device alloc("q40kbd", -1); 
if (!q40kbd_device) 

goto err unregister driver; 


/*platform 设备 注册 */ 
error = platform device add(q40kbd device); 
if (error) 

goto err free device; 


return 0; 





这 段 代码 很 简单 ， 首 先 注册 一 个 platform 驱动 ， 然 后 注册 一 个 platform 设备 。 这 个 过 程 


显示 了 platform 总 线 的 用 法 。 第 3 章 介绍 的 PCI 总 线 可 以 自动 扫描 设备 ， 而 platform 总 线 
是 虚拟 的 总 线 ， 物 理 上 并 不 存在 ， 没 有 扫描 设备 的 功能 ， 所 以 platform 总 线 需 要 直接 注册 设 
备 。 本 节 先 从 驱动 的 注册 开始 分 析 。 


6.1.2 注册 驱动 


驱动 注册 调用 的 函数 是 platform_driver_register， 它 的 代码 如 代码 清单 6-2 所 示 。 
代码 清单 6-2 platform_driver_register 





int platform_driver_register(struct platform driver *drv) 
{ 
drv->driver.bus = éplatform bus_type; 
if (drv->probe) 
drv->driver.probe = platform drv_probe; 
if (drv->remove) 
drv->driver.remove = platform drv_remove; 
if (drv->shutdown) 
drv->driver.shutdown = platform drv_shutdown; 
if (drv->suspend) 
drv->driver.suspend = platform drv_suspend; 
if (drv->resume) 
drv->driver.resume = platform drv_resume; 
return driver register(&drv->driver); 
} 





platform_driver_register 函数 把 驱动 的 总 线 设置 为 platform 总 线 ， 然 后 依次 设置 驱动 的 各 


个 函数 指针 ， 最 后 调用 driver_register 函数 注册 驱动 。driver_register 函数 很 简单 ， 初 始 化 之 
后 就 调用 bus_add_driver 函数 。 
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6.1.3 为 总 线 增加 一 个 驱动 
bus_add_driver 函数 的 名 字 显示 ， 它 的 作用 是 为 总 线 增加 一 个 驱动 。bus_add_driver 的 代 
码 如 代码 清单 6-3 所 示 。 
代码 清单 6-3 bus_add_driver 函数 





int bus_add driver(struct device driver * drv) 


{ 
struct bus_ type * bus = get_bus(drv->bus); 


int error = 07 


if (bus) { 
pr_debug("bus %s: add driver %s\n", bus->name, drv->name); 


/* 为 kobject 结构 设置 名 字 */ 
error = kobject set name (gdrv->kobj, "%s", drv->name); 
if (error) { 
put_bus (bus); 
return error; 
1 
drv->kobj .kset = gbus->drivers; 
/* 为 sysfs 文件 系统 创建 设备 的 相关 文件 */ 
if ((error = kobject_ register(&drv->kobj))) { 
put_bus (bus); 
return error; 
} 
driver_attach (drv); 
/* 驱动 加 入 总 线 的 枢 动 列表 */ 
klist_add_tail(kdrv->knode_bus，&bus->klist_drivers)7 
/* 这 行 和 下 面 一 行 也 是 为 了 在 sysfs 创建 驱动 的 属性 文件 和 模块 */ 
module_add_driver (drv->owner, drv); 
driver add attrs(bus, drv); 
add_bind files (drv); 
} 
return error; 
} 


bus_add_driver 函数 使 用 了 kobject_register 和 driver_add_attrs 等 函数 为 sysfs 文件 系统 创建 
设备 驱动 相关 的 目录 和 文件 。 第 4 章 sysfs 文件 系统 已 经 介绍 过 这 种 用 法 ， 就 不 再 一 一 分 析 了 。 


6.1.4 驱动 加 载 
真正 执行 驱动 加 载 的 是 driver_attach 函数 ， 它 的 代码 如 代码 清单 6-4 所 示 。 
代码 清单 6-4 driver_attach 函数 


void driver_attach(struct device driver * drv) 


{ 
bus_for each dev(drv->bus, NULL, drv, _ driver attach); 


} 
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int bus_for each dev(struct bus type * bus, struct device * start, 
void * data, int (*fn) (struct device *, void *)) 
{ 
struct klist_iter i; 
struct device * dev; 
int error = 07 


if (!bus) 
return -EINVAL; 

/* 初始 化 一 个 klist， 从 设备 start 开始 */ 

klist_iter init node(é&bus->klist_devices, 8i, 

(start ? &start->knode bus : NULL)); 

while ((dev ~ next device(si)) 55 !error) 
error = fnldev, data); 

klist iter exit (6i); 

return error; 

} 





bus_for_each_dev 函数 首先 初始 化 一 个 klist_iter 结构 ， 目 的 是 在 双向 链表 中 定位 一 个 成 
员 。klist 结构 和 使 用 在 lib 目录 下 的 klist.c 文件 中 定义 ， 代 码 和 功能 都 非常 简单 ， 读 者 可 以 
自行 阅读 理解 。 


6.1.5 遍历 总 线 上 已 经 挂 载 的 设备 
遍历 总 线 上 已 经 挂 载 的 设备 ， 起 始 位 置 是 初始 化 klist_iter 结构 时 设置 的 start 设备 ， 只 遍 
历 这 个 设备 之 后 挂 载 的 设备 。 当 前 场景 设置 的 start 设备 为 空 ， 所 以 要 遍历 所 有 platform 总 线 
的 设备 。 对 每 个 设备 调用 fi 函数 指针 。fn 就 是 传 入 的 函数 指针 _driver_attach， 它 的 代码 如 
代码 清单 6-5 所 示 。 
代码 清单 6-5 _ driver_attach 函数 


static int _ driver attach(struct device * dev，void * data) 
{ 





struct device driver * drv = data; 


if (dev->parent) /* Needed for USB */ 
down (sdev->parent->sem) ; 
down (kdev->sem) 
if (!dev->driver) 
driver_probe_device (drv, dev); 





_driver_attach 获取 设备 的 锁 之 后 ， 调 用 driver_probe_device 函数 ， 它 的 代码 如 代码 清 
单 6-6 所 示 。 
代码 清单 6-6 driver_probe_device 函数 


int driver_probe_device(struct device driver * drv, struct device * dev) 





6.1 从 驱动 发 现 设备 的 过 程 4 97 


int ret = 0; 

/* 先 调用 总 线 配 置 的 match 函数 */ 

if (drv->bus->match && !drv->bus->match(dev, drv)) 
goto Doney 


Ppr_debug("%s: Matched Device %s with Driver ®s\n", 
drv->bus->name, dev->bus_id, drv->name); 
dev->driver = drv; 

/* 总 线 的 match 函数 通过 后 。 继 续 调用 总 线 的 Probe 函数 */ 

if (dev->bus->probe) { 
ret = dev->bus->probe (dev); 
if (ret) { 

dev->driver = NULL; 
goto ProbeFailed; 
} 
} else if (drv->probe) { 
/* 如 果 驱 动 提供 了 probe 函数 ， 则 调用 桂 动 的 probe 函数 */ 
ret = drv->probe (dev); 
if (ret) { 
dev->driver = NULL; 
goto ProbeFailed; 
} 
1 
/* 设备 发 现 了 驱动 ， 通 过 sysfs 创建 一 些 文件 。 和 设备 做 符号 链接 */ 


device bind driver (dev); 








driver_probe_device 函数 可 以 分 为 两 个 步骤 。 
口 第 一 步调 用 总 线 提供 的 match 函数 。 如 果 检 查 通过 ， 说 明 该 设备 和 驱动 是 匹配 的 ， 设 
备 所 指向 的 驱动 指针 要 赋值 为 当前 驱动 。 
口 第 二 步 是 探测 ( probe)。 首 先 调用 总 线 提供 的 probe 函数 ， 如 果 驱 动 有 自己 的 probe 函 
数 ， 还 要 调用 驱动 的 probe 函数 。 
probe 的 目的 是 总 线 或 者 设备 进一步 的 探测 。 比 如 硬盘 控制 器 ， 它 本 身 是 个 pci 设备 ， 同 
时 又 提供 硬盘 接 人 的 功能 。 那 么 它 驱动 的 probe 函数 就 要 扫描 scsi 总 线 ， 把 所 有 接 人 的 硬盘 
都 扫描 出 来 。 


1. match 函数 
platform 总 线 的 match 函数 就 是 platform_match， 它 的 代码 如 代码 清单 6-7 所 示 。 


代码 清单 6-7 platform_match 函数 





static int platform match(struct device * dev, struct device driver * drv) 
{ 
struct platform device *pdev = container of(dev, struct platform device, dev); 
return (strncmp (pdev->name, drv->name, BUS_ID SIZE) == 0); 
} 





platform_match 函数 很 简单 ， 就 是 比较 驱动 的 名 字 和 设备 的 名 字 是 否 相 同 ， 相 同 就 可 以 
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匹配 。 而 注册 的 q40kbd 驱动 的 名 字 是 “ q40kbd"， 也 就 是 说 如 果 找到 这 个 名 字 的 设备 ， 两 者 
就 匹配 了 。 
2. probe 函数 
platform 总 线 的 probe 函数 是 platform_drv_probe， 这 个 函数 是 个 封装 函数 ， 它 只 是 简单 
调用 了 驱动 的 probe 函数 。 驱 动 的 probe 函数 就 是 q40kbd_probe， 它 的 代码 如 代码 清单 6-8 
所 示 。 
代码 清单 6-8 q40kbd_probe 函数 





static int _ devinit q40kbd_probe (struct Platform_device *dev) 
{ 
q40kbd port = kzalloc(sizeof (struct serio), GFP KERNEL); 
if (!q40kbd port) 
return -ENOMEM; 


q40kbd_port->id.type = SERIO_8042; 
q40kbd_port->open ~ q40kbd_open; 

q40kbd_port->close = q40kbd_closey 

q40kbd_port->dev.parent = &dev->dev; 

strlcpy(q40kbd_port->name，"040 Kbd Port", sizeof(q40kbd_port->name)); 
strlcpy (q40kbd_port->phys, "Q40", sizeof(q40kbd_port->phys)); 


serio_register_port (q40kbd_port); 
printk (KERN_INFO "serio: Q40 kbd registered\n")} 


return 07 


} 





q40kbd_probe 函数 设置 了 一 个 serio 结构 变量 ， 然 后 注册 到 系统 。 调 用 serio_register_port 
这 关键 的 一 步 是 实现 什么 ?在 platform 总 线 里 面 又 注册 serio， 又 是 为 什么 ? 这 些 问题 放 到 下 
一 章 分 析 。 


6.2 从 设备 找到 驱动 的 过 程 


总 结 platform 总 线 驱动 的 注册 过 程 ， 我 们 发 现 和 input 设备 驱动 注册 的 过 程 很 相像 ， 都 
是 逐个 遍历 设备 ， 检 查 是 否 和 驱动 匹配 。 由 此 可 以 联想 ，platform 总 线 加 载 设备 的 过 程 ， 应 
该 也 是 遍历 驱动 ， 看 是否 和 设备 匹配 。 事 实 是 否 如 此 ? 我 们 从 设备 注册 的 过 程 开始 分 析 。 


6.2.1 注册 设备 和 总 线 类 型 
注册 设备 使 用 的 是 platform_device_add 函数 ， 它 的 代码 如 代码 清单 6-9 所 示 。 
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代码 清单 6-9 platform_device_add 函数 





int platform_device_add(struct Platform_device *pdev) 


{ 
int i, ret = 0; 


if (!pdev) 
return -EINVAL; 
/* 如 果 没 父 设备 ， 就 设置 platform_bus 为 父 设备 */ 
if (!pdev->dev.parent) 
pdev->dev.parent = splatform bus; 
/* 设置 设备 的 bus 为 Platform_bus_type */ 
pdev->dev.bus = splatform bus_type; 


if (pdev->id != -1) 
snprintf (pdev->dev.bus_id, BUS_ID_SIZE, "%s.%u", pdev->name, pdev->id); 


else 
strlcpy (pdev->dev.bus_id, pdev->name, BUS_ID_SIZE); 


platform_device_add 函数 第 一 部 分 是 设置 设备 的 父 设 备 和 总 线 类 型 。 


6.2.2 注册 设备 的 资源 
platform_device_add 函数 第 二 部 分 注册 设备 的 资源 。 
/* 把 设备 TI/O 雯 口 和 工 /0 内 存 资源 注册 到 系统 */ 


for (i = 0; i < pdev->num resources; i++) { 
struct resource *p, *r = épdev->resource[i]; 


if (r->name == NULL) 
r->name = pdev->dev.bus_id; 





P ~ r->parent; 
if (!p) { 
if (r->flags 6 IORESOURCE MEM) 
P = Siomem resource; 
else if (r->flags 5 IORESOURCE_IO) 
P = iioport_resource: 


if (p && insert_resource(p，z)) { 
printk (KERN_ERR 
"ss: failed to claim resource $d\n", 
pdev->dev.bus_id, 1); 
ret = -EBUSY; 
goto failed; 


) 
注意 IO 端口 (设备 控制 寄存 器 ) 和 IO 内 存 注 册 到 系统 的 部 分 代码 。 回 顾 设备 基本 概念 
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一 章 ，PCI 总 线 通过 扫描 设备 的 配置 文件 ， 可 以 配置 设备 的 VO 端口 和 1O 内 存 ， 而 platform 
总 线 在 物理 上 并 不 存在 ， 自 然 不 能 自动 扫描 设备 ， 那 么 如 何 配置 设备 的 IO 端口 和 IO 内 存 ? 
从 内 核 驱动 中 ， 可 以 发 现 platform 设备 很 多 使 用 了 探测 的 方式 。 一 般 是 先 往 一 个 IO 端 
口 写 数据 ， 看 是 否 回应 判断 设备 的 UO 端口 是 否 存 在 。 至 于 本 章 分 析 的 q40kbd 设备 ， 它 甚至 
没有 注册 自己 的 1/O 端口 和 内 存 ， 而 是 直接 使 用 了 缺 省 值 。 说 明 这 是 一 种 很 古老 的 设备 了 。 


pr_debug("Registering platform device '%s'. Parent at %s\n", 
pdev->dev.bus_id, pdev->dev.parent->bus_id); 
ret = device_add(&pdev->dev); 


6.2.3 增加 一 个 设备 对 象 
platform_device_add 函数 第 三 部 分 调用 device_add 增加 一 个 设备 对 象 ， 它 的 代码 如 代码 
清单 6-10 所 示 。 
代码 清单 6-10 device_add 函数 


int device_add (struct device *dev) 





struct device *parent = NULL; 
char *class_name = NULL; 
int error = -EINVAL; 


dev = get_device (dev); 


if (ldev 11 !strlen(dev->bus_id)) 
goto Error; 
/* 获得 父 设备 */ 





parent = get_device(dev->parent)7 
pr_debug ("DEV: registering device: ID = '%s'\n", dev->bus_id); 


/* first, register with generic layer. */ 
kobject_set_name (sdev->kobj, "%s", dev->bus_id); 
if (parent) 
dev->kobj.parent ~ Sparent->kobj; 
/* 在 sys 目录 生成 设备 目录 */ 
if ((error = kobject_add(sdev->kobj))) 
goto Error; 
/* 设置 uevent 属性 */ 
dev->uevent attr.attr.name = "uevent"; 
dev->uevent attr.attr.mode = S_INUSR; 
if (dev->driver) 
dev->uevent attr.attr.owner = dev->driver->owner; 
dev->uevent_attr.store = store_uevent; 
device create file(dev, sdev->uevent attr); 





函数 device_add 第 一 部 分 要 为 设备 在 sys 目录 创建 目录 和 uevent 属性 文件 。 这 些 内 容 已 
经 多 次 出 现 了 ， 就 不 一 一 分 析 了 。 
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/* 设备 的 属性 文件 */ 
if (MAJOR(dev->devt)) { 
struct device attribute *attr; 
attr = kzalloc (sizeof (*attr), GFP_KERNEL); 
if (iattr) { 
error = -ENOMEM; 
goto PMError; 
上 
attr->attr.name = "dev"; 
attr->attr.mode = S_IRUGO; 
if (dev->driver) 
attr->attr.owner = dev->driver->owner; 
attr->show = show_dev; 
error = device create file(dev, attr); 
if (error) { 
kfree (attr); 
goto attrError; 
dev->devt attr = attr; 
} 
/* 创建 设备 类 的 符号 链接 * 
if (dev->class) { 
sysfs_create_link(sdev->kobj, édev->class->subsys.kset.kobj, 
subsystem") ; 
sysfs_create_link (sdev->class->subsys.kset .kobj, &dev->kobj, 
dev->bus_id); 





sysfs_create link(sdev->kobj, sdev->parent->kobj, "device"); 
class_name = make_class_name (dev->class->name, &dev->kobj); 
sysfs_create_link (sdev->parent->kobj, édev->kobj, class_name); 
} 
/* 设备 的 能 源 管理 */ 
if ((error = device pm add(dev))) 
goto PMError; 
if ((error = bus add device (dev))) 
goto BusError; 
kobject_uevent (sdev->kobj, KOBJ_ADD); 


函数 device_add 第 二 部 分 要 为 设备 创建 一 堆 的 符号 链接 和 设备 属性 文件 等 。 这 仍 是 已 经 
熟悉 的 内 容 ， 略 过 。 

bus attach device (dev); 

/* 设备 加 入 父 设备 的 链表 */ 


if (parent) 
klist add tail(&dev->knode parent, &parent->klist children); 


函数 device_add 第 三 部 分 调用 bus_attach_device 把 设备 注册 到 总 线 ， 它 的 代码 如 代码 清 
单 6-11 所 示 。 
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代码 清单 6-11 bus_attach_device 





void bus attach device(struct device * dev) 


{ 
struct bus_type * bus -= dev->bus; 


if (bus) 1 
device attach (dev); 
klist_add tail(&dev->knode_bus, gbus->klist_devices); 
} 
} 


int device attach(struct device * dev) 
{ 
int ret = 0; 


down (6dev->sem) 7 
if (dev->driver) { 
/* 设备 已 经 有 了 驱动 ， 执 行 sysfs 的 链接 和 链表 操作 */ 
device_bind driver (dev); 
ret = 1; 
} else 
ret = bus_for_ each drv(dev->bus, NULL, dev, _ device attach); 
up (sdev->sem); 
return ret; 
】 





回顾 上 一 节 添 加 驱动 到 总 线 的 处 理 函 数 是 bus_for_each_dev， 而 本 节 添 加 设备 到 总 线 的 
处 理 函 数 是 bus_for_each_drv。 前 者 的 作用 是 遍历 设备 ， 为 驱动 寻找 合适 的 设备 ， 后 者 的 作 
用 是 遍历 驱动 ， 为 设备 寻找 合适 的 驱动 。 这 两 个 函数 的 实现 几乎 一 样 ， 前 者 已 经 分 析 过 ， 读 
者 可 以 自行 分 析 。 


6.3 本 章 小 结 

本 章 分 析 了 platform 总线， 我 们 发 现 和 input 架构 的 管理 方式 类 似 ， 总 线 下 面 也 有 两 个 
列表 ， 一 个 是 设备 列表 ， 另 一 个 是 驱动 列表 。 无 论 注 册 设 备 还 是 驱动 都 要 遍历 总 线 ， 寻 找 匹 
配 的 驱动 或 者 设备 。 

platform 总 线 虽然 简单 但 是 很 典型 ， 基 本 说 明了 总 线 架 构 的 概念 。 在 内 核 驱动 中 ， 总 线 
的 使 用 很 广泛 ， 驱 动 目录 里 的 scsi、usb 、ieee1394、pcmcia 等 都 是 总 线 类 型 ， 它 们 也 都 使 用 
了 通用 的 设备 和 驱动 管理 。 读 者 可 以 分 析 这 些 总 线 是 怎么 管理 设备 、 怎 么 发 现 设备 和 管理 驱 
动 的 ， 这 样 可 以 增强 对 设备 管理 架构 的 理解 。 
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从 第 5 章 input 驱动 的 分 析 中 ， 我 们 了 解 到 驱动 可 以 分 为 几 个 层次 ， 驱 动 之 间 可 以 垦 套 。 
和 这 种 架构 类 似 ， 总 线 也 可 以 分 为 几 个 层次 ， 一 种 类 型 的 总 线 可 以 架构 在 另 一 种 类 型 的 总 线 
之 上 。 

第 6 章 platform 总 线 驱动 提供 的 probe 函数 中 ， 调 用 了 serio_register_port 函数 。 这 引出 
了 总 线 嵌 套 的 概念 以 及 在 内 核 中 极 重要 的 总 线 适 配 的 概念 。 


7.1 什么 是 总 线 适 配器 


我 们 知道 计算 机 的 体系 架构 中 ，PCI 总 线 占有 重要 的 地 位 ， 是 连接 CPU 和 外 部 设备 的 标 
准 总 线 。 而 网 卡 、 声 卡 、 显 卡 、SCSI 卡 等 设备 很 多 都 是 以 PCI 卡 的 形式 出 现 ， 并 插入 计算 
机 的 PCI 插 槽 。 这 些 设备 中 ,声卡 显卡 加 载 驱 动 后 ， 就 可 以 直接 读 写 操作 。 而 像 SCSI 卡 这 
种 设备 就 比较 麻烦 了 ， 因 为 SCSI 卡 本 身 又 可 以 连接 SCSI 硬盘 ， 因 此 加 载 SCSI 卡 的 PCI 驱 
动 后 ， 必 须 进行 SCSI 总 线 扫描 ， 发 现 SCSI 硬盘 设备 ， 才 能 正确 地 读 写 硬 盘 。 这 里 ，SCSI 
卡 就 担任 了 总 线 桥 的 任务 ， 它 提供 了 总 线 之 间 的 协议 转换 和 互 操 作 。 像 SCSI 卡 这 样 的 设备 ， 
称 为 主机 总 线 适配器 (HBA)， 它 一 方面 是 PCI 设备 ， 另 一 方面 它 又 管理 SCSI 总 线 的 设备 。 
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第 6 章 的 例子 中 提 到 ， 注 册 到 platform 总 线 的 设备 和 驱动 匹配 之 后 ， 驱 动 本 身 会 探测 
端口 并 注册 到 serio 总 线 。serio_register_port 函数 就 执行 这 个 注册 操作 。serio 总 线 建筑 在 
platform 总 线 之 上 ， 它 们 分 工 合作 ， 共 同 提供 了 完整 的 驱动 功能 。 

从 架构 角度 来 看 ，serio 总 线 这 种 总 线 嵌 套 使 用 模式 类 似 于 总 线 适 配器 的 模式 ， 虽 然 从 物 
理 上 来 说 ,物理 上 存在 的 总 线 适配器 和 serio 还 是 存在 不 同 之 处 。 
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7.2.1 注册 端口 登记 事件 


我 们 接续 第 6 章 的 分 析 ，serio_register_port 函数 的 作用 是 注册 serio 总 线 ， 如 代码 清 
单 7-1 所 示 。 


代码 清单 7-1 serio_register_port 函数 (serio.c) 


static inline void serio_register port(struct serio *serio) 
{ 
_serio_register port(serio, THIS MODULE); 
} 
void _ serio_register port(struct serio *serio, struct module *owner) 
{ 
serio init port (serio); 
/* 注册 一 个 SERIO_REGISTER_PORT 事件 */ 
serio queue event (serio, owner, SERIO_REGISTER PORT); 
} 








serio_register_port 函数 的 输入 参数 serio 设置 了 端口 类 型 是 SERIO_8042， 说 明 是 8042 
兼容 型 的 (18042 是 intel 开发 的 键盘 控制 芯片 ) 。 


serio_register_port 函数 封装 了 _serio_register_ port 函数 ， 后 者 首先 初始 化 一 个 serio 结 
构 ， 设 置 总 线 类 型 为 serio 总 线 ， 然 后 调用 serio_queue_event 函数 向 系统 注册 一 个 端口 登记 
事件 。 


serio_queue_event 函数 作用 是 登记 端 日 ， 如 代码 清单 7-2 所 示 。 


代码 清单 7-2 serio_queue_event(serio.c) 





static void serio_queue event (void *object, struct module *owner, 


enum serio_event_type event_type) 
{ 


unsigned long flags; 
struct serio_event *event; 


spin_lock_irqsave (sserio event_lock, flags); 


list_for each entry_reverse (event, sserio event list, node) { 
/* 如 果 发 现 相同 的 evenc， 退 出 */ 
if (event->object -= object) { 
if (event->type == event type) 
goto out; 
break; 


if ((event = kmalloc(sizeof(struct serio_ event), GFP ATOMIC))) { 
“…/* 省 略 部 分 代码 */ 

event->type ~ event_ type; 

event->object = object; 

event->owner = owner; 
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/*event 加 到 链表 尾 ， 并 唤醒 线程 */ 
list add tail (gevent->node, sserio event_list); 
wake_up {éserio_wait); 





serio_queue_event 函数 首先 遍历 内 核 的 serio_event_list 链表 ， 检 查 所 有 注册 的 事件 ， 如 
果 发 现 有 相同 类 型 的 事件 ， 直 接 退 出 。 这 说 明 同一 个 端口 只 能 注册 一 次 ， 如 果 重 复 登记 ， 把 
它们 合并 为 一 次 。 然 后 创建 一 个 serio_event 结构 ， 设 置 这 个 serio_event 结构 的 类 型 为 端口 注 
册 ， 唤 醒 处 理 这 个 事件 的 任务 。 

这 个 注册 事件 由 谁 来 处 理 ? 实际 是 serio_thread 内 核 线程 处 理 的 ， 如 代码 清单 7-3 所 示 。 


代码 清单 7-3 serio_thread (serio.c) 


static int serio_thread(void *nothing) 
{ 
do { 





serio handle event(); 
/* 内 核 线程 进入 睡 想 状态 。 如 果 被 唤 根 ， 且 事件 链表 非 空 则 处 理事 件 */ 
wait_event_interruptible (serio_wait, 
kthread_should_stop() || !list empty(&serio event_list)); 
try_to_freeze(); 
} while (!kthread_should_stop()); 


printk (KERN_DEBUG "serio: kseriod exiting\n"); 
return 0; 


} 





serio_thread 线程 实际 的 处 理由 serio_handle_event 函数 执行 ， 如 代码 清单 7-4 所 示 。 
代码 清单 7-4 serio_handle_event 函数 


static void serio handle event (void) 
{ 
struct serio_event *event7 





mutex_lock (sserio_mutex); 
if ((event -~ serio get event())) { 
switch (event->type) { 
case SERIO REGISTER PORT: 
serio_add_port (event->object); 
break; 
default: 
break; 
} 





serio_handle_event 函数 处 理 各 种 事件 ， 比 如 端口 的 注册 和 撤销 、 重 新 扫 撒 端口 等 。 对 于 
SERIO_REGISTER_PORT 事件 ， 实 际 通过 serio_add_port 函数 来 处 理 ， 如 代码 清单 7-5 所 示 。 
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代码 清单 7-5 serio_add_port (serio.c) 


static void serio_add_port (struct serio *serio) 
{ 


int error; 





if (serio->parent) { 
/* 修改 端口 父 设备 的 参数 */ 
serio pause_rx(serio->parent); 
serio->parent->child = serio; 
serio_continue_rx(serio->parent); 
) 
/* 把 串口 设备 加 入 全 局 链表 */ 
list add tail(&serio->node, &serio_list); 
if (serio->start) 
serio->start (serio); 
error = device_add(6serio->dev); 
if (error) 
/+ 省略 部 分 代码 */ 
else { 
serio->registered = 1; 
error ~ sysfs_ create group(éserio->dev.kobj, éserio_ id attr group); 





serio_add_port 函数 要 调用 serio 结构 的 start 函数 ， 因 为 q40kbd 注册 端口 的 时 候 ， 并 没 
有 设置 start 函数 ， 所 以 此 处 不 会 执行 。 


7.2.2 遍历 总 线 的 驱动 


serio_add_port 函数 的 关键 部 分 是 device_add 函数 。 在 第 6 章 platform 总 线 的 分 析 中 ,我 
们 已 经 分 析 过 这 个 函数 ， 它 的 作用 就 是 遍历 总 线 的 驱动 ， 通 过 总 线 提供 的 match 函数 找到 一 
个 合适 的 驱动 ， 然 后 调用 总 线 的 probe 函数 。 

我 们 首先 分 析 serio 总 线 的 match 函数 ， 然 后 再 分 析 probe 函数 。 


1. match 函数 
serio 总 线 的 match 函数 定义 在 serio.c 文件 ， 它 的 真实 名 字 是 serio_bus_match， 如 代码 
清单 7-6 所 示 。 


代码 清单 7-6 serio_bus_match (serio.c) 


static int serio bus match(struct device *dev, struct device driver *drv) 
{ 
struct serio *serio = to_serio_port (dev); 
struct serio driver *serio drv = to _serio driver(drv); 
/* 如 果 指 定 了 手工 绑 定 。 则 匹配 不 成 功 */ 
if (serio->manual_bind || serio_drv->manual_bind) 
return 0; 





return serio match port(serio_drv->id table, serio); 
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serio_bus_match 函数 在 设备 注册 时 多 次 调用 ， 它 的 输入 参数 是 serio 总 线 上 注册 的 每 一 
个 驱动 ， 需 要 逐个 检查 端口 设备 serio 和 驱动 的 匹配 情况 。 如 果 设备 或 者 驱动 设置 了 手工 绑 
定 ， 直 接 返回 ， 和 否则 调用 serio_match_port 函数 检查 设备 和 驱动 的 ID 表 是 否 匹配 ， 如 代码 清 
单 7-7 所 示 。 
代码 清单 7-7 serio_match_port (serio.c) 


static int serio match port(const struct serio_device_id *ids, struct serio *serio) 
{ 








while (ids->type || ids->proto) { 
if ((ids->type == SERIO_ANY || ids->type == serio->id.type) 56 
(ids->proto == SERIO ANY || ids->proto -= serio->id.proto) &é& 
(ids->extra == SERIO ANY || ids->extra == serio->id.extra) 56 
(ids->id -~ SERIO ANY || ids->id -= serio->id.id)) 
return 1; 
idst+; 
} 
return 0; 


serio_match_port 函数 很 简单 ， 就 是 检查 设备 和 驱动 ID 表 的 type、proto 等 参数 是 否 相 
同 。 登 记 设 备 的 时 候 ， 赋 予 的 type 是 SERIO_8042， 搜 索 内 核 代码 ， 和 它 匹配 的 驱动 就 是 目 
录 drivers/input/keyboard 下 的 atkbd.c 文件 。 


2. probe 函数 
现在 返回 device_add 函数 ， 设 备 和 驱动 匹配 之 后 ， 首 先 调用 serio 总 线 提供 的 probe 函 
数 ， 也 就 是 serio_driver_probe 函数 ， 如 代码 清单 7-8 所 示 。 
代码 清单 7-8 serio_driver_probe (serio.c) 


static int serio driver probe(struct device *dev) 
{ 
struct serio *serio ~ to_serio port (dev); 
struct serio_driver *drv = to_serio driver (dev->driver); 





return serio_connect driver(serio, drv); 
1 
static int serio_connect driver(struct serio *serio, struct serio driver *drv) 
{ 
int retval; 


mutex_lock(&serio->drv_mutex); 
retval = drv->connect (serio, drv); 


mutex_unlock (&serio->drv_mutex); 


return retval; 
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serio_driver_probe 函数 直接 调用 了 serio_connect_driver 函数 ， 最 终 调用 驱动 提供 的 


connect 函数 ， 就 是 atkbd_connect， 如 代码 清单 7-9 所 示 。 
代码 清单 7-9 atkbd_connect (atkbd.c) 





static int atkbd_connect (5truct serio *serio, struct serio_driver *drv) 
{ 

struct atkbd *atkbd; 

struct input dev *dev; 

int err = -ENOMEM; 


atkbd = kzalloc(sizeof (struct atkbd), GFP_KERNEL); 
dev = input_allocate device(); 
if (!atkbd || !dev) 
goto fail; 
/*atkbd 的 dev 赋值 为 创建 的 input 设备 。input 要 为 这 个 设备 加 载 对 应 的 input 驱动 */ 
atkbd->dev = dev; 
/* 创建 一 个 工作 队列 ， 这 个 队列 做 什么 ? 就 是 处 理 input_event 不 处 理 的 事件 */ 
ps2_init (satkbd->ps2dev, serio); 
INIT_WORK (satkbd->event_work, atkbd_event_work, atkbd); 
mutex_init (satkbd->event_mutex); 


switch (serio->id.type) { 
/* 对 8042_XL 芯片 ,设置 translated 成 员 为 1*/ 
case SERIO_8042_XL: 
atkbd->translated = 1; 
case SERIO_8042: 
/* 如 果 赋值 write 函数 ， 设 置 write 为 1*/ 
if (serio->write) 
atkbd->write = 1; 
break; 


atkbd->softraw = atkbd_softraw; 
atkbd->softrepeat ~ atkbd_softrepeat; 
atkbd->scroll = atkbd_scroll; 


if (atkbd->softrepeat) 
atkbd->softraw = 1; 


serio_set_drvdata(serio, atkbd); 





atkbd_connect 函数 第 一 部 分 创建 一 个 input 设 备 和 一 个 atkbd 结构 。atkbd 是 input 设备 


的 控制 结构 ， 它 封装 了 input 设备 的 重要 信息 。 
/* 打开 serio 登记 的 open 函数 。serio 在 q40kbd 里 面 创建 的 */ 


err = serio_open(serio, drv); 
if (err) 
goto fail7 


if (atkbd->write) { 
if (atkbd probe(atkbd)) { 
serio_close (serio); 
err = -ENODEV; 
goto fail; 
} 
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atkbd->set = atkbd_select set (atkbd, atkbd_set, atkbd extra); 


atkbd_activate (atkbd); 
} else { 
atkbd->set = 2; 
atkbd->id ~ Oxab00; 
} 
/* 根据 set 值 选择 码 表 */ 


atkbd_set_keycode_table (atkbd); 


/* 设置 input 设备 的 属性 */ 
atkbd_set_device attrs(atkbd); 
device_create file(&serio->dev, 
device create file(&serio->dev, 
device_create file(sserio->dev, 
device create file(&serio->dev, 
device create file(&serio->dev, 
atkbd_enable (atkbd); 


Satkbd_attr_extra); 
Satkbd_ attr_scroll); 
Satkbd_attr_set); 
Satkbd attr softrepeat); 
Satkbd_attr_softraw); 


input_register_device (atkbd->dev); 


return 0; 


atkbd_connect 函数 第 二 部 分 设置 atkbd 结构 的 属性 和 input 设备 的 属性 。 因 为 q40kbd 没 


有 设置 write 函数 ， 所 以 本 场景 设置 set 值 为 2， 然 后 要 根据 set 值 设置 atkbd 结构 使 用 的 码 
表 。 码 表 作用 是 把 键盘 输入 设备 的 原始 数据 转换 为 统一 的 键 值 ， 供 上 层 应 用 使 用 。 


7.2.3 注册 input 设备 


调用 input_register_device 注册 input 设备 。 这 个 函数 在 第 5 章 分 析 过 ， 它 最 终 要 为 设 


备 找到 匹配 的 驱动 。 这 个 驱动 就 是 键盘 驱动 ， 根 据 我 们 前 面 对 input 的 分 析 ， 这 个 驱动 通过 
input_register_handler 函数 加 入 到 input 的 驱动 列表 。 


atkbd_connect 函数 开始 部 分 调用 了 serio 注册 的 open 函数 ， 这 个 函数 就 是 q40kbd_open， 


它 的 作用 是 打开 键盘 设备 ， 以 及 设置 设备 的 中 断 信息 ， 如 代码 清单 7-10 所 示 。 


代码 清单 7-10 q40kbd_open 








static int q40kbd_open (struct serio *port) 


{ 
q40kbd_ flush (); 


if (request_irq(Q40_ IRQ KEYBOARD, q40kbd interrupt, 0, "q40kbd", NULL)) { 


Printk (KERN_ERR "q40kbd.c: 


return -EBUSY; 
} 


/* off we go */ 


Can't get irq %d.\n", Q40_IRO KEYBOARD); 
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/* 写 芯片 的 控制 端口 */ > 
master_ outb(-1, KEYBOARD UNLOCK REG); 
master_outb(1l, KEY_IRO ENABLE REG); 





q40kbd_open 函数 要 申请 中 断 并 且 设置 设备 端口 。 这 个 芯片 是 管理 键盘 的 ， 设 置 芯片 的 
IO 端口 启动 了 键盘 。 而 这 里 的 中 断 是 物理 上 存在 的 ， 它 的 中 断 处 理 函 数 需要 调用 serio 设 
备 、input 设备 等 一 系列 虚拟 设备 的 处 理 函 数 ， 把 来 自 物理 底层 的 事件 一 步 步 报 上 去 。 


7.3 虚拟 键盘 驱动 
上 一 节 注册 了 一 个 input 键盘 设备 ， 注 册 设 备 的 同时 需要 找到 它 的 驱动 。 


7.3.1 键盘 驱动 的 初始 化 
input 作为 一 个 设备 框架 ， 它 提供 的 键盘 驱动 位 于 目录 drivers/char 下 的 keyboard.c 文件 。 
键盘 驱动 的 初始 化 函数 是 kbd_init， 如 代码 清单 7-11 所 示 。 
代码 清单 7-11 kbd_init 函数 (keyboard.c) 


int _init kbd_init (void) 
1 
int i; 





for (i = 0; i < MAX_NR_CONSOLES; i++) { 
kbd_table[i] .ledflagstate ~ KBD_DEFLEDS; 
kbd_table[i] .default_ledflagstate = KBD_DEFLEDS; 
kbd_table[i] .ledmode = LED_SHOW_FLAGS; 
kbd_table[i] .lockstate ~ KBD_DEFLOCK; 
kbd_table[i] .slockstate = 0; 
kbd_table[i] .modeflags ~ KBD_ DEFMODE; 
kbd_table[i] .kbdmode = VC_XLATE; 

上 


input_register_handler (skbd_handler); 
/* 启动 键盘 的 tasklet*/ 
tasklet_enable(5keyboard_tasklet) 
tasklet_schedule (skeyboard_tasklet); 


return 07 


} 





kbd _init 函数 设置 ID 表 后 ， 调 用 input_register_handler 函数 注册 一 个 input 驱动 。 
此 时 需要 回顾 input 设备 的 注册 过 程 ， 在 设备 匹配 到 驱动 以 后 ， 还 要 调用 驱动 提供 的 
connect 函数 和 start 函数 。 


7.3 讶 拟 键盘 驱动 。 


7.3.2 与 设备 建立 连接 
首先 我 们 从 connect 函数 开始 分 析 ， 这 个 函数 的 全 名 是 kbd_connect， 作 用 是 和 具体 的 设 
备 建立 连接 ,执行 打开 设备 的 过 程 ， 如 代码 清单 7-12 所 示 。 
代码 清单 7-12 kbd_connect(keyboard.c) 


static struct input_handle *kbd connect(struct input_handler *handler, 
struct input_dev *dev, 
struct input_device id *id) 





struct input handle *handle; 
int i; 
/* 从 保留 健 开 始 测试 */ 
for (i = KEY RESERVED; i < BTN MISC; i++) 
if (test_bit(i, dev->keybit)) 
break; 


if (i -= BTN MISC 66 !test bit(EV_SND, dev->evbit)) 
return NULL; 


handle = kzalloc (sizeof (struct input_handle), GFP_KERNEL); 
if (!handle) 
return NULL; 


handle->dev ~ dev; 
handle->handler = handler; 
handle->name = "kbd"; 


input_open_device (handle); 


return handle; 
} 





atkbd_connect 函数 创建 一 个 input_handle 结构 ， 然 后 调用 input_open_device 函数 执行 
input 设备 的 open 函数 。 对 这 个 例子 来 说 ， 因 为 设备 没有 注册 open 函数 ， 实 际 上 不 会 执行 


open。 


7.3.3 启动 键盘 设备 
返回 input 设备 的 注册 过 程 ， 驱 动 提供 的 start 函数 是 kbd_start， 它 的 作用 是 点 亮 键盘 的 
LED 灯 ， 启 动 键盘 设备 。 如 代码 清单 7-13 所 示 。 
代码 清单 7-13 kbd_start(keyboard.c) 


static void kbd_start(struct input_handle *handle) 
{ 
unsigned char leds = ledstate; 
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tasklet_disable (ékeyboard tasklet)7 

if (leds != Oxff) { 
input_inject_event (handle, EV_LED, LED SCROLLL, !!(leds & 0x01)); 
input_inject_event (handle, EV_LED, LED_NUML, !! (leds & Ox02)); 
input_inject_event (handle, EV_LED, LED CAPSL, !!(leds & 0x04)); 
input_inject_event (handle, EV_SYN, SYN_REPORT, 0); 

} 

tasklet enable (skeyboard tasklet); 





函数 kbd_start 开始 控制 真正 的 键盘 设备 ， 它 的 作用 是 刷新 键盘 的 LED 灯 ， 这 就 是 我 们 
在 系统 启动 时 候 看 到 的 键盘 闪烁 。 函 数 input_inject_event 的 作用 是 发 送 LED 事件 ， 让 LED 
灯 闪 烁 ， 这 个 功能 必须 由 芯片 来 触发 。 根 据 目前 学 到 的 知识 可 以 推测 ， 这 个 过 程 一 定 要 通过 
input 调用 serio 总 线 上 的 设备 驱动 ， 写 事件 到 相应 的 1/O 端口 。 读 者 可 以 分 析 一 下 这 个 流程 。 

明白 了 原理 和 框架 ， 其 实 内 核 的 很 多 代码 已 经 可 以 整理 出 大 致 的 过 程 ， 只 是 具体 实现 的 
方法 不 同 。 因 为 我 们 选 的 是 一 个 旧 的 键盘 设备 ， 这 个 芯片 实际 是 不 能 驱动 键盘 闪烁 的 。 


7.3.4 输入 设备 和 主机 系统 之 间 的 事件 
输入 设备 和 主机 系统 之 间 的 事件 有 多 种 ， 这 些 事件 类 型 如 表 7-1 所 示 。 
表 7-1 输入 设备 和 主机 系统 之 间 的 事件 


























事件 功能 描述 事件 功能 描述 
EV_SYN 同步 LED 灯 事件 
EV_KEY 按键 声音 事件 
EV_REL 相对 坐标 EV_REP | 自动 重复 的 参数 事件 
EV_ABS 绝对 坐标 EV_SW | “切换 事件 

EV_MSC 其 他 杂项 事件 


这 些 事件 类 型 很 多 ， 每 种 事件 里 面 又 定义 了 很 多 子 事件 。 针 对 具体 事件 的 处 理 ， 需 要 相 
关 驱 动 的 开发 人 员 仔细 设计 。 


7.4 键盘 中 断 


现在 总 结 设备 和 驱动 处 理 的 整个 路 径 。 最 底层 的 设备 是 Q40kbd， 它 是 一 个 platform 总 
线 设 备 ， 和 platform 总 线 的 驱动 匹配 后 ， 注 册 了 一 个 serio 端口 设备 。serio 设备 也 需要 匹配 
serio 总 线 的 驱动 atkbd， 然 后 调用 驱动 的 connect 函数 创建 并 注册 一 个 input 设备 。input 设备 
再 次 匹配 input 之 上 登记 的 驱动 ， 最 终 找 到 input 驱动 kbd。 

通过 一 层 层 的 总 线 、 设 备 和 驱动 的 搜索 和 匹配 ， 内 核 最 终 建立 了 设备 的 驱动 架构 。 一 旦 
设备 和 驱动 都 就 位 了 ， 那 么 就 可 以 从 键盘 接收 用 户 的 输入 了 。 


T.4 键盘 中 断 。 


7.4.1 q40kbd 设备 的 中 断 处 理 
最 底层 的 设备 是 q40kbd， 当 用 户 按键 的 时 候 ， 触 发 它 的 中 断 ， 然 后 系统 将 一 层 层 往 上 报 
按键 事件 ， 所 以 需要 从 q40kbd 设备 的 中 断 处 理 函 数 开 始 分 析 。 中 断 处 理 函 数 q40kbd_interrupt 
如 代码 清单 7-14 所 示 。 
代码 清单 7-14 q40kbd_interrupt(q40kbd.c) 


static irqreturn t q40kbd_interrupt (int irq, void *dev_id, struct pt_regs *regs) 
{ 

unsigned long flags; 

spin_lock irqsave (&q40kbd_ lock, flags); 





if (040_IRO_KEYB_MASK 5 master_inb(INTERRUPT REG)) 

serio_interrupt (q40kbd port, master inb (KEYCODE REG), 0, regs); 
/* 向 TI/O 端口 KEYBORARD_UNLOCK_REG 写 数据 */ 
master_outb(-1, KEYBOARD_UNLOCK_REG); 
spin_unlock_irqrestore(sq40kbd_lock, flags); 


return IRQ_HANDLED; 
} 





q40kbd_interrupt 读 IO 端口 KEYCODE_REG 的 数据 ， 作 为 输入 参数 调用 serio_interrupt 
函数 来 处 理 。 


7.4.2 serio 总 线 的 中 断 处 理 


serio_interrupt 是 serio 总 线 提供 的 中 断 处 理 函 数 ， 它 要 进一步 调用 驱动 提供 的 中 断 处 理 
函数 ， 如 代码 清单 7-15 所 示 。 


代码 清单 7-15 serio_interrupt ( serio.c) 





irqreturn_t serio_interrupt (struct serio *serio, 
unsigned char data, unsigned int dfl, struct Pt_regs *regs) 
{ 
* 省 略 部 分 代码 */ 
if (likely(serio->drv)) { 
ret = serio->drv->interrupt (serio, data, dfll, regs); 
) else if (ldfl 66 serio->registered) { 
/*serio 重新 扫描 ， 和 前 面 的 设备 注册 差不多 的 流程 */ 
serio_rescan(serio); 
ret = IRQ_HANDLED; 








函数 serio_interrupt 检查 是 否 已 经 匹配 驱动 ， 如 果 是 ， 调 用 驱动 的 中 断 处 理 函数 。 


7.4.3 驱动 提供 的 中 断 处 理 
serio 驱动 是 什么 ?就 是 前 一 节 分 析 的 atkbd， 所 以 中 断 处 理 函 数 就 是 atkbd_interrupt， 如 
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代码 清单 7-16 所 示 。 
代码 清单 7-16 atkbd_interrupt (atkbd.c) 


static irqreturn_t atkbd_interrupt (struct serio *serio, unsigned char data, 
unsigned int flags，struct Pt_regs *regs) 





{ 
*/* 省 略 变 量 定义 代码 */ 
/* 如 果 需 要 ， 回 一 个 ACk 给 键盘 */ 
if (unlikely (atkbd->ps2dev.flags 5 PS2_FLAG_ACK)) 
if (ps2_handle ack(satkbd->ps2dev, data)) 
goto out; 
/* 如 果 有 进程 在 等 键盘 ， 喘 醒 等 待 的 进程 */ 
if (unlikely(atkbd->ps2dev.flags 5 PS2_FLAG_CMD)) 
if (ps2_handle_response(satkbd->ps2dev, data)) 
goto out; 





if (latkbd->enabled) 
goto out; 
/* 上 报 原始 的 扫描 码 */ 
input_event (dev, EV MSC, MSC_RAW, code); 
区 /* 省 咯 部 分 代码 */ 


/1* 转换 扫描 码 为 通用 的 字符 码 ， 码 表 就 是 atkbd_connect 时 注册 进去 的 码 表 */ 
keycode ~ atkbd->keycode[code]; 


if (keycode !~ ATKBD_KEY NULL) 
input_event (dev, EV_MSC, MSC_SCAN, code); 





函数 atkbd_interrupt 要 三 次 调用 input_event 上 报 输入 的 数据 : 第 一 次 上 报 原始 的 扫描 码 ; 
第 二 次 也 是 上 报 原始 的 扫描 码 ， 只 是 为 了 兼容 性 考虑 ， 对 扫描 码 做 了 处 理 ; 第 三 次 上 报 用 户 
真正 需要 的 按键 值 。 
input_regs (dev, regs); 
input_event (dev, EV_KEY, keycode, value); 
/1* 同步 事件 ， 上 报 结束 */ 


input_sync (dev); 


if (value 56 add_ release event) { 
input_report_key (dev, keycode, 0); 
input_sync (dev); 
) 
i 
/+* 省略 部 分 代码 */ 


函数 atkbd_interrupt 第 二 部 分 上 报 真正 的 按键 值 。 按 键 值 根 据 设备 的 转换 码 表 将 原始 的 
扫描 码 转换 后 得 到 ， 对 上 层 应 用 来 说 ， 按 键 值 是 统一 的 。 

上 报 输入 事件 通过 函数 input_event 完成 ， 它 要 处 理 同步 事件 、 按 键 事件 、 绝 对 坐标 、 
LED 灯 、 声 音 等 各 种 事件 ， 而 我 们 最 关心 的 是 按键 事件 ， 所 以 省 略 了 其 他 事件 的 处 理 代码 ， 


7.4 键盘 中 断 。 


如 代码 清单 7-17 所 示 。 
代码 清单 7-17 input_event (input'c) 





void input event (struct input_dev *dev, unsigned int type, unsigned int code, int value) 


{ 
struct input_ handle *handle; 


if (type > EV MAX 11 !test bit(type, dev->evbit)) 
return; 
/* 产生 随机 数 ， 这 里 利用 按键 产生 随机 数 “/ 


add_input_randomness (type, code, value); 


switch (type) { 
/*EV_KEY 是 按键 事件 */ 
case EV_KEY: 


if (code > KEY MAX || !test_bit(code, dev->keybit) 11 
ltest_bit (code, dev->key) -== value) 
return; 


if (value == 2) 
break; 


change_bit (code, dev->key); 


if (test_bit (EV REP, dev->evbit) 566 dev->rep[REP_PERIOD] 66 
dev->rep[REP_DELAY] 56 dev->timer.data 6&6 value) { 
dev->repeat_key -~ code; 
mod_timer (sdev->timer, jiffies + 

msecs_to_jiffies(dev->rep[REP_DELAY])); 

上 

break7 





input_event 函数 的 第 一 部 分 是 对 各 种 输入 事件 进行 处 理 。 对 按键 事件 而 言 ， 如 果 设 备 要 
求 周期 重复 上 报 按键 ， 要 启动 input 设备 的 定时 器 ， 启 动 时 间 为 当前 时 间 加 上 设备 的 延 时 时 
间 。 当 启动 时 间 到 达 后 ， 重 复 上 报 按键 值 。 

if (dev->grab) 

dev->grab->handler->event (dev->grab, type, code, value); 
else 
list_for_ each_entry (handle, &dev->h_list, d_node) 
if (handle->open) 
handle->handler->event (handle, type, code, value); 


input_event 函数 的 第 二 部 分 调用 input 驱动 对 输入 事件 进行 处 理 。 如 果 设 备 已 经 有 了 
指定 的 input_handler， 也 就 是 有 了 指定 的 驱动 ， 则 调用 驱动 的 event 函数 ， 否 则 遍历 设备 的 
input_handler 链表 ， 逐 个 调用 驱动 的 event 函数 。 用 户 的 按键 经 过 层 层 的 驱动 到 最 后 ， 终 于 
汇 人 了 input 字符 设备 定义 的 架构 ， 此 时 原始 的 按键 数据 已 经 变 成 了 标准 的 输入 键 值 。 

input 键盘 设备 驱动 的 event 函数 其 实 就 是 kbd_event， 它 的 代码 如 代码 清单 7-18 所 示 。 
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代码 清单 7-18 kbd_event(keyboard.c) 


static void kbd event (struct input_handle *handle, unsigned int event_type, 
unsigned int event_code, int value) 





{ 

/* 原始 码 由 kbd_rawcode 处 理 */ 

if (event type == EV MSC 55 event code -~- MSC RAW 56 HW RAW (handle->dev)) 
kbd_rawcode (value) ; 

/* 标准 的 字符 码 ， 由 kbd_keycode 处 理 */ 

if (event type == EV_KEY) 
kbd_keycode (event_code, value, HW_RAW (handle->dev), handle->dev->regs); 

tasklet_schedule(&keyboard tasklet); 

do_poke_blanked_console = 1; 

schedule_console_callback(); 





kbd_event 根据 上 报 输入 事件 的 类 型 分 别处 理 ， 如 果 上 报 原始 扫描 码 ， 调 用 kbd_rawcode 
函数 处 理 ， 如 果 是 经 过 转换 的 键 值 ， 则 调用 kbd_keycode 函数 处 理 。 这 两 个 函数 最 终 都 要 调 
用 put_queue 函数 把 按键 数据 送 到 控制 台 的 输入 缓冲 区 里 。 

控制 台 是 Linux 输入 /输出 系统 的 一 个 重要 概念 。 控 制 台 简单 地 把 用 户 的 输入 发 送 到 计 
算 机 处 理 ， 然 后 再 把 处 理 结果 返回 给 用 户 。 从 软件 角度 看 ， 控 制 台 提供 给 用 户 一 个 使 用 命令 
行 的 字符 界面 ， 用 于 接收 用 户 输入 和 反馈 输出 结果 。 由 于 现代 计算 机 功能 强大 ， 可 以 利用 硬 
件 模拟 出 来 很 多 控制 台 界面 ，Linux 系统 支持 多 个 控制 台 ， 而 用 户 的 输入 由 当前 活跃 的 控制 
台 接收 。kbd_event 把 用 户 的 按键 数据 送 到 当前 控制 台 的 输入 缓冲 区 ， 应 用 程序 调用 标准 的 库 
函数 scanf 读 控制 台 的 输入 缓冲 区 ， 就 可 以 获得 用 户 的 按键 值 。 

这 里 启用 了 一 个 tasklet_schedule， 处 理 led 事件 等 耗 时 间 的 操作 ， 用 软 中 断 继 续 处 理 。 
回顾 基础 知识 一 节 ， 软 中 断 的 好 处 是 软 中 断 里 面 可 以 打开 中 断 。 所 以 一 些 和 硬件 相关 的 操 
作 放 在 中 断 里 面 ， 而 和 硬件 无 关 的 逻辑 等 放 在 软 中 断 ， 可 以 减少 长 时 间 关 中 断 的 代价 (中 
断 的 处 理 代码 也 可 以 打开 中 断 ， 软 中 断 处 理 也 可 能 需要 关闭 中 断 ， 是 否 开 闭 中 断 ， 需 要 仔 
细 设 计 ) 


7.5 本 章 小 结 

platform 总 线 和 serio 总 线 构成 了 总 线 的 嵌 套 关系 。 这 个 例子 比较 简单 ， 但 是 却 很 典型 。 
对 于 一 个 真正 的 计算 机 系统 来 说 ， 最 重要 的 总 线 是 PCI 总线， 大 多 数 设备 都 是 PCI 设备 ， 而 
总 线 适配器 (HBA) 一 般 都 是 挂 载 到 PCI 总 线 上 。 作 为 最 重要 的 总 线 ， 下 章 将 分 析 PCI 总 线 。 


第 8 章 
PCI 总 线 


前 面 的 章节 先后 介绍 了 input 字符 设备 以 及 platform 总 线 。input 设备 是 个 逻辑 概念 ， 它 
建立 在 真正 的 物理 设备 之 上 ， 是 对 设备 功能 的 抽象 表达 。 本 章 要 重点 分 析 真 实 的 物理 设备 和 
PCI 总 线 的 应 用 。 


8.1 深入 理解 PCI 总 线 


PCI 总 线 是 现代 计算 机 系统 中 最 重要 的 总 线 ， 当 PCI 总 线 扫描 到 PCI 设备 后 ， 已 经 为 设 
备 设置 了 DMA 信息 、 中 断 信息 和 IO 端口 、1/O 内 存 信息 ， 这 些 信息 是 实现 PCI 设备 驱动 的 
基础 ， 也 是 深入 理解 PCI 设备 驱动 的 重点 。 


8.1.1 PCI 设备 工作 原理 

PCI 设 备 具 有 自己 的 设备 配置 信息 ， 也 具备 VO 端口 和 IO 内 存 ， 这 些 端 口 和 内 存 构成 
一 个 独立 的 地 址 空间 ， 就 是 PCI 总 线 地 址 空间 。 这 个 空间 和 主 存 的 空间 是 隔离 的 。 彼 此 互相 
独立 ，CPU 要 通过 主 桥 ( host bridge) 才能 访问 PCI 地 址 空间 ， 而 PCI 设备 也 要 通过 主 桥 才 
能 访问 主 存 。 

主 桥 可 以 直接 产生 一 条 PCI 总 线 ， 这 条 总 线 也 是 主 桥 管理 的 第 一 条 总 线 ， 也 是 0 号 PCI 
总 线 。 在 内 核 代码 中 ,会 直接 使 用 这 条 0 号 总 线 。 从 该 总 线 还 可 以 扩展 出 一 系列 的 PCI 总 
线 ， 称 为 PCI 桥 ,以 主 桥 为 根 节点 ,这 些 桥 和 设备 形成 了 一 颗 PCI 树 。 这 些 扩展 出 来 的 PCI 
总 线 都 可 以 连接 PCI 设备， 但 是 在 一 条 PCI 总 线 上 ， 最 多 只 能 挂 载 256 个 PCI 设备 (PCI 桥 
本 身 也 是 一 个 PCI 设备 )。 

如 图 8-1 所 示 ，PCI 0 号 总 线 下 面 有 四 个 PCI 设备， 其 中 一 个 是 桥 设备 ， 这 个 桥 设备 引出 
了 PCI 总线 1， 它 的 下 面 又 可 以 挂 载 256 个 PCI 设备 。 
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图 8-1 PCI 设备 和 总 线 图 


8.1.2 PCI 总 线 域 

PCI 设备 具有 一 个 8 bit 的 总 线 号 ， 一 个 5 bit 的 设备 编号 以 及 一 个 3 bit 的 功能 编号 

因此 一 个 主 桥 下 最 多 拥有 256 个 总 线 ， 这 个 对 大 型 系统 上 而 言 是 不 够 的 ， 为 此 Linux 引 
入 PCI 域 的 概念 。 每 个 PCI 域 可 拥有 256 个 而 每 个 可 有 32 个 设备 。 如 果 设 备 是 
多 功能 设备 ， 还 可 以 支持 8 个 子 设备 。 图 8-2 给 出 了 一 个 简单 系统 的 PCI 设备 图 











图 8-2 PCI 设 备 图 
以 图 8-2 显示 的 PCI 设备 00:01:0 为 例 ， 分 隔 符 将 设备 地 址 分 为 三 个 区 间 ， 首 区 间 00 是 
总 线 号 ， 中 间 区 间 01 是 设备 编号 ,末尾 区 间 0 是 功能 编号 ， 这 是 一 个 多 功能 PCI 设备 。 


8.1.3 ”PCI 资源 管理 


为 了 管理 PCI 设备 的 IO 端口 和 IO 内 存 ， 内 核定 义 了 一 个 resource 结构 。 
首先 分 析 代 表 1/O 端口 的 resource， 如 下 所 示 : 
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struct resource ioport_resource = { 


.name = "PCI IO", 
start =0, 

-end = IO_SPACE LIMIT, 
.flags = IORESOURCE I0, 


} 7 
ioport_resource 起 始 地址 为 0， 结 束 地 址 为 0xffff， 这 个 变量 定义 了 全 部 的 IO 端口 地 


址 空间 ， 每 个 PCI 设 备 新 加 入 系统 ， 都 要 检查 它 配置 空间 的 WO 端口 的 结束 地 址 是 否 大 于 
0xffff， 和 现存 设备 是 否 有 冲突 ， 是 否 可 以 插入 IO 端口 地 址 空间 。 


IO 内 存 则 是 另 一 个 resource 结构 ， 如 下 所 示 : 


struct resource iomem resource = { 


‘name = "PCI mem", 
.start = 0, 
-end = -1l, 


flags = IORESOURCE MEM, 
有 


1/0 内 存 需 要 映射 到 主机 内 存 地 址 空间 ， 所 以 它 的 结束 地 址 为 -1。 当 PCI 设备 加 入 系统 


的 时 候 ， 同 样 要 检查 它 配 置 空间 的 IO 内 存 和 其 他 设备 是 否 有 冲突 ， 是 否 可 以 插入 IO 内 存 
地 址 空间 。 


8.1.4 ”PCI 配置 空间 读 取 和 设置 


第 3 章 已 经 介绍 了 ， 对 PCI 设备 的 读 取 和 设置 要 通过 UO 指令 读 一 个 特殊 的 1/0 端口 空 


间 来 完成 。 内 核 中 提供 了 一 个 pci_raw_ops 结构 来 控制 配置 空间 的 读 写 。 这 个 结构 的 读 写 函 
数 通常 被 设置 为 pci_confl_read 函数 和 pci_confl_write 函数 ， 通 过 它们 执行 对 PCI 配置 空间 
的 读 写 。 


有 必要 分 析 pci_confl_read 函数 对 PCI 配置 空间 的 读 取 过 程 ， 如 代码 清单 8-1 所 示 。 
代码 清单 8-1 pci_conf1_read (direct.c) 





int pci_confl_read(unsigned int seg, unsigned int bus, 
unsigned int devfn，int reg, int len, u32 *value) 
{ 
省 略 部 分 代码 */ 
outl (PCI_CONF]1_ADDRESS (bus, devfn, reg), OxCF8); 


switch (len) { 

case 1: 
*value = inb(OxCFC + (reg & 3)); 
break; 

case 2: 
*value = inw(OxCFC + (reg & 2)); 
break; 

case 4: 
*value = inl (OxCFC); 
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break; 
人 





pci_confl_read 函数 首先 往 1O 端口 0xCF8 写 人 一 个 PCI 地址， 然后 从 IO 端口 0xCFC 
读 该 地 址 的 配置 信息 。pci_confl_write 函数 和 pci_confl_read 函数 很 类 似 ， 此 处 不 再 分 析 。 


8.2 PCI 设备 扫描 过 程 


Linux 内 核 具 备 多 种 PCI 的 扫描 方式 ， 它 们 彼此 之 间 大 同 小 异 。 作 为 例子 ， 本 节选 择 典 
型 的 传统 扫描 模式 ， 这 种 扫描 模式 定义 在 legacy.c 文件 。 
传统 扫描 模式 的 执行 函数 是 pci_legacy_init， 如 代码 清单 8-2 所 示 。 


代码 清单 8-2 pci_legacy_init 函数 (legacy.c) 





static int _init pci_legacy_init (void) 
{ 
if (!raw pci_ops) { 
printk("PCI: System does not support PCI\n"); 
return 07 
} 
/* 如 果 曾 经 扫描 过 ， 则 不 再 扫描 */ 
if (pcibios_scanned++) 
return 07 


Printk("PCI: Probing PCI hardware\n"); 

/* 扫描 0 号 总 线 */ 

pci_root_bus = pcibios_scan_root (0); 

if (pci_root_bus) /* 扫描 出 来 的 设备 加 入 pci 总线 */ 
pci_bus_add_devices (pci_root_bus); 

/* 对 bios 提供 的 PCI 总 线 进行 扫描 */ 


peibios fixup_peer_bridges(); 


return 0; 
} 





pci_legacy_init 函数 首先 扫描 0 号 总 线 ， 如 果 扫 描 成 功 ， 则 把 0 号 总 线 作 为 系统 的 根 总 
线 。 然 后 ， 要 把 0 号 总 线 上 扫描 出 来 的 所 有 设备 都 加 入 一 个 全 局 的 PCI 设备 链表 。 最 后 ， 调 
用 pcibios_fixup_peer_bridges 对 bios 提供 的 PCI 总 线 做 进一步 的 扫描 。 
8.2.1 扫描 0 号 总 线 
扫描 0 号 总 线 调用 的 是 pcibios_scan_root 函数 ， 代 码 如 代码 清单 8-3 所 示 。 
代码 清单 8-3 pcibios_scan_root 函数 





struct pci bus * _ devinit pcibios_scan_root (int busnum) 


{ 
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struct pci_bus *bus = NULL; 


dmi check system(pciprobe dmi table); 
while ((bus = pci find next_bus(bus)) != NULL) { 
if (bus->number -= busnum) 1 
/* Already scanned */ 
return bus; 
} 
} 
printk (KERN_DEBUG "PCI: Probing PCI hardware (bus %02x)\n", busnum); 
return pci_scan_bus_parented (NULL, busnum, épci_root_ops, NULL); 
} 





pcibios_scan_root 函数 首先 逐个 遍历 所 有 的 PCI 总 线 ， 检 查 指定 的 总 线 是 否 已 经 扫描 过 ， 


如 果 已 经 扫描 ， 则 直接 返回 。 如 果 尚 未 扫描 ， 则 调用 pci_scan_bus_parented 函数 扫描 总 线 。 
8.2.2 扫描 总 线 上 的 PCI 设备 


pci_scan_bus_parented 函数 的 功能 是 扫描 总 线 上 可 能 接 入 的 256 个 PCI 设备， 如 果 扫 描 


到 的 PCI 设备 是 个 桥 设备 ， 还 要 递归 扫描 桥 设备 ， 把 桥 设备 可 能 接 入 的 PCI 设备 扫描 出 来 ， 
这 个 函数 的 代码 清单 8-4 所 示 。 


代码 清单 8-4 pci_scan_bus_parented 函数 





struct peci_bus * _ devinit pci_scan_bus_parented(struct device *parent, 
int bus, struct pci ops *ops, void *sysdata) 
{ 
struct pci_bus *b; 
/* 创建 一 个 总 线 对 象 */ 
b = pci_create_bus(parent，bus，ops，sysdata)7 
if (b) 
b->subordinate = pci_scan_child_bus(b); 
return bi 


上 





pei_scan_bus_parented 函数 可 分 成 两 个 步骤 : 第 一 步 是 创建 一 个 总 线 对 象 ， 第 二 步 是 调 


用 pci_scan_child_bus 对 创建 的 总 线 对 象 进行 递归 扫描 。 


1. 创建 一 个 总 线 对 象 
首先 分 析 创建 总 线 对 象 的 pci_create_bus 函数 ， 它 的 parent 参数 为 空 ， 说 明 这 条 总 线 没 





有 父 设备 ， 是 一 条 根 总 线 。 


1 ) pei_ereate_bus 第 一 部 分 是 创建 一 个 总 线 对 象 和 一 个 设备 对 象 。 
它 的 代码 如 代码 清单 8-5 所 示 。 


代码 清单 8-5 pci_create_bus 函数 





struct pci bus * _ devinit pci create bus(struct device *parent, 
int bus, struct pci_ ops *ops, void *sysdata) 
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int erro 
struct pci_bus *b; 
Struct device *dev7 
/* 申请 一 个 PCI 总 线 结构 */ 
b = pci_ alloc bus(); 
if (!b) 
return NULL; 
/* 申请 一 个 dev 结构 */ 
dev = kmalloc (sizeof (*dev), GFP KERNEL); 
…/* 省 略 部 分 代码 */ 








b->sysdata = sysdata; 

b->ops = ops; 

/* 检查 是 否 被 创建 */ 

if (pci_find_bus(pci_domain_nr (b), bus)) 1 
/* IE we already got to this bus through a different bridge, ignore it */ 
Ppr_debug ("PCI: Bus $%04x:%02x already known\n", pci_domain nr(b), bus); 
goto err out; 

} 

/1* 创建 的 总 线 加 入 PCI 总 线 链表 */ 

down_write(épci_bus_sem); 

list_add_tail (sb->node, gpci_root_buses); 

up_write (pci_bus_sem); 





PCI 总线 本 身 就 是 一 个 设备 ， 所 以 除了 总 线 对 象 外 ， 还 要 为 它 创建 一 个 设备 对 象 。 总 线 
对 象 要 链接 到 一 个 全 局 的 链表 头 pci_root_buses， 这 样 通 过 这 条 链表 ， 就 可 以 遍历 所 有 的 PCI 
总 线 。 

2 ) pci_ereate_bus 函数 第 二 部 分 执行 结构 和 对 象 的 注册 。 


/* 设置 dev 结构 并 登记 到 系统 */ 
memset (dev, 0, sizeof (*dev)); 
dev->parent = parent; 
dev->release = pci_release bus_bridge_dev; 
sprintf (dev->bus_id, "pci%04x:$02x", pci_domain nr(b), bus); 
error = device_register (dev); 
if (error) 
goto dev reg_err; 
b->bridge = get_device (dev); 


b->class_dev.class = gpcibus class; 
sprintf (b->class_dev.class_id, "%04x:$02x", pci_domain_nr(b), bus); 
error = class_device register (sb->class_dev); 
if (error) 

goto class dev reg err; 
error = class_device create file(sb->class dev, sclass device attr cpuaffinity); 
if (error) 

goto class dev create file err; 


8.2 PCI 设备 扫描 过 程 。 


/* Create legacy io and legacy mem files for this bus */ 
pci_create_legacy files(b); 


error = sysfs_create_link(sb->class_dev.kobj, &b->bridge->kobj, "bridge"); 


if (error) 
goto sys_create link err; 


b->number = b->secondary = bus; 


首先 把 设备 对 象 注册 到 系统 ， 这 个 过 程 在 第 6 章 已 经 分 析 过 了 。 其 次 是 注册 PCI 总 线 类 
和 为 sysfs 文件 系统 创建 符号 连接 。 
3 ) pei_create_bus 函数 最 后 设置 PCI 总 线 的 资源 。 
/设置 总 线 的 资源 */ 
b->resource[0] = éioport_resource; 


b->resource[1] = &iomem resource; 
return by 


PCI 总 线 的 资源 有 两 类 ， 一 类 是 UO 端口 ， 另 一 类 是 UO 内 存 。 总 线 上 所 有 设备 的 端 
口 和 内 存 组 成 了 一 个 空间 ， 为 了 避免 冲突 ， 内 核 设置 了 全 局 的 数据 结构 ioport_resource 和 
iomem_resource， 分 别 保存 所 有 的 IO 端口 资源 和 所 有 的 IO 内 存 资源 。 


2. 扫描 总 线 
现在 返回 pci_scan_bus_parented 函数 ， 当 成 功 创建 总 线 对 象 后 ， 开 始 扫描 这 条 总 线 。 扫 
描 总 线 调 用 pci_scan_child_bus 函数 ， 如 代码 清单 8-6 所 示 。 


代码 清单 8-6 pci_scan_child_bus (probe.c) 


unsigned int _ devinit pci_scan_child bus(struct pci_bus *bus) 
{ 

unsigned int devfn, pass, max = bus->secondary; 

struct pci_dev *dev; 





Pr_debug ("PCI: Scanning bus %04x:%02x\n", pci_domain_nr (bus), bus->number); 


/* Go find them，Rover! */* 扫描 总 线 下 面 的 256 个 设备 */ 
for (devfn = 0; devfn < 0x100; devfn += 8) 
pei_scan_slot (bus, devEn); 


J* 
* After performing arch-dependent fixup of the bus, look behind 
* all PCI-to-PCI bridges on this bus. 
*/ 
Pr_debug ("PCI: Fixups for bus %04x:%02x\n", pci_domain nr (bus), bus->number); 
peibios fixup_bus (bus)7 
/* 扫描 子 总 线 。 分 两 次 扫描 ， 第 一 次 是 扫描 bios 发 现 的 总 线 */ 
for (pass-0; pass < 2; Pass++) 
list_for_each_entry(dev，sbus->devices，bus_list) { 
if (dev->hdr_type == PCI_HEADER TYPE BRIDGE || 
dev->hdr_type == PCI_HEADER TYPE CARDBUS) 
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max = pci_scan_bridge (bus, dev, max, pass); 
} 





扫描 PCI 总 线 是 个 递归 的 过 程 。 每 条 PCI 总 线 可 以 配置 32 个 多 功能 设备 ， 每 个 多 功能 
设备 又 可 以 安装 8 个 子 设 备 ， 总 共 就 是 256 个 设备 。 这 256 个 设备 中 ， 有 的 设备 可 能 是 
PCI 桥 ， 每 个 PCI 桥 下 面 又 可 以 接 人 256 个 设备 。 通 过 函数 pci_scan_slot 扫描 每 个 多 功能 
设备 的 8 个 子 设备 ， 通 过 pci_scan_bridge 函数 扫描 PCI 桥 设备 。 对 于 桥 设 备 ， 还 要 递归 调 
用 pci_scan_child_bus 函数 扫描 本 桥 设 备 下 面 可 能 接 人 的 PCI 设备 。 


8.2.3 扫描 多 功能 设备 


扫描 PCI 多 功能 设备 和 扫描 桥 设备 有 重复 的 地 方 ， 因 此 本 节 以 扫描 多 功能 设备 的 函数 
pci_scan_slot 为 例 进行 分 析 ， 它 的 代码 如 代码 清单 8-7 所 示 。 


代码 清单 8-7 pci_scan_slot 函数 (probe.c) 


int _devinit pci_scan_slot (struct pci_bus *bus, int devfn) 
{ 

int func, nr = 07 

int scan_all_fns; 





scan_all_fns = pcibios_scan_all_fns(bus, devfn); 


for (func = 0; func < 8; funct+, devfn++) ( 

struct pci_dev *dev; 
dev ~ pci_scan single device(bus, devfn); 
if (dev) { 

nr++ts 

人 

* IE this is a single function device, 

* don't scan past the first function. 

if (!dev->multifunction) { 

if (func > 0) { 
dev->multifunction = 1; 


} else { 
break; 
} 
} 
) else { 
if (func -== 0 66 !scan_all_fns) 
break; 


} 
} 
return nr; 


} 


pci_scan_slot 函数 从 0 号 设备 开始 进行 扫描 ， 如 果 扫 描 发 现 是 单 功能 设备 ， 不 再 继续 扫 
描 ， 如 果 发 现 是 多 功能 设备 ， 则 进行 8 次 扫描 。 





8.2 PCI 设备 扫描 过 程 4 


8.2.4 扫描 单个 设备 
扫描 单个 设备 调用 pci_scan_single_device 函数 ， 输 入 参数 是 总 线 结构 和 设备 功能 号 ， 如 
代码 清单 8-8 所 示 。 
代码 清单 8-8 pci_scan_single_device 函数 (probe.c) 





pci_scan single device(struct pci bus *bus, int devfn) 


{ 


struct pci_dev *dev; 


dev = pci_scan_device(bus, devfn); 
if (!dev) 
return NULL; 


pci_device_add(dev, bus); 
pci_scan_msi_device (dev); 


return dev; 
3 





pci_scan_single_device 函数 调用 pci_scan_device 扫描 设备 ， 扫 描 成 功 后 把 设备 加 入 总 线 
的 设备 链表 。 最 后 的 pci_scan_msi_device 函数 是 检查 设备 的 MSI 能 力 ，MSI 和 设备 的 中 断 
有 关 ， 当 前 可 以 不 关 ， 


8.2.5 扫描 设备 信息 
扫描 PCI 设备 通过 读 取 PCI 设备 的 配置 空间 完成 ， 这 部 分 原理 在 第 3 章 已 经 介绍 过 。 扫 
描 设 备 的 代码 在 pci_scan_device 函数 中 ， 如 代码 清单 8-9 所 示 。 


代码 清单 8-9 pci_scan_device (probe.c) 








pci_scan_device (struct pci_bus *bus, int devfn) 
{ 
struct pci_dev *dev; 
u32 1; 
u8 hdr_type; 
int delay = 1; 
/* 读 PCI 设备 制造 商 的 ID*/ 
if (pci_bus_read_config dword(bus, devfn, PCI_VENDOR_ID, &1)) 
return NULL; 


/* some broken boards return 0 or ~0 if a slot is empty: */ 
if (1 OxfffffffE || 1 0x00000000 11 

0x0000ffff || 1 == Oxfff£0000) 

return NULL; 








/* 处 理 需要 重复 读 配置 信息 的 情况 */ 
while (1 == 0xffff0001) { 
msleep (delay); 
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delay *= 2; 
if (pci bus_read config dword(bus, devfn, PCI_VENDOR_ID, £1)) 
return NULL; 
/* Card hasn't responded in 60 seconds? Must be stuck. */ 
if (delay > 60 * 1000) 1 
printk (KERN_WARNING "Device %04x:%02x:%02x.%d not " 
"responding\n", pci_domain_nr (bus), 
bus->number, PCI_SLOT(devfn), 
PCI_FUNC (devEn) ); 
return NULL; 





pci_scan_device 函数 第 一 部 分 读 PCI 设备 制造 商 的 ID， 所 有 的 制造 商都 要 分 配 厂商 ID 
号 , 从 ID 就 可 以 获得 设备 厂商 信息 。 这 部 分 代码 要 处 理 异 常情 况 ， 某 些 设备 可 能 返回 重 试 
状态 ， 这 种 情况 要 延迟 一 段 时 间 ， 再 次 尝试 读 制造 商 的 ID， 如 果 延 迟 时 间 超 过 60 秒 ， 还 没 
有 读 到 ID， 则 返回 失败 。 

pei_scan_device 函数 第 二 部 分 为 设备 分 配 一 个 PCI 设备 结构 ， 然 后 根据 设备 配置 空间 读 
取 的 信息 对 设备 进行 赋值 。 


/* 读 PCI 设备 的 类 型 */ 
if (pci_bus_read_config_byte(bus，devfn，PCI_HEADER_TYPE，&hdr_type)) 
return NULL; 
/* 申请 一 个 PCI 设备 结构 */ 
dev ~ kzalloc(sizeof(struct pci dev), GFP_KERNEL); 
if (ldev) 
return NULL; 
/* 设置 PCI 设备 的 参数 ， 包括 类 型 、 制 造 商 和 是 否 多 功能 等 */ 
dev->bus = bus; 
dev->sysdata = bus->sysdata; 
dev->dev.parent = bus->bridg: 
dev->dev.bus ~ spci_ bus type 
dev->devfn = devfny 
dev->hdr_type = hdr_type 6 Ox7f; 
dev->multifunction = !!(hdr type & 0x80); 
dev->vendor = 1 & Oxffff; 
dev->device = (1 >> 16) & Oxffff; 
dev->cfg_size = pci_cfg_space size (dev); 
dev->error state = pci_channel io_normal; 





/* Assume 32-bit PCI; let 64-bit PCI cards (which are far rarer) 
set this higher, assuming the system even supports it. */ 
/* 设置 设备 的 dma 地 址 掩 码 */ 
dev->dma_ mask = OxfffffffE; 
if (pci_setup device(dev) < 0) { 
kfree (dev) 7 
return NULL; 
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return dev; 


) 
此 时 ， 只 读 取 了 配置 空间 的 制造 商 ID 和 头 部 信息 ( HEADER_TYPE)， 信 息 的 进一步 读 
取 在 函数 pci_setup_device 中 完成 ， 这 个 函数 同时 要 设置 PCI 设备 的 信息 ， 如 代码 清单 8-10 
所 示 。 
代码 清单 8-10 pci_setup_device 





static int pci_setup_device(struct pci_dev * dev) 


u32 class; 


sprintf (pci_name (dev), "%04x:%02x:%02x.%d", pci_domain_nr (dev->bus), 
dev->bus->number, PCI_SLOT (dev->devEn), PCI_FUNC (dev->devfn)); 


/* 读 类 别 */ 
peci_read_config_dword (dev, PCI_CLASS_REVISION, sclass); 
class >>= 8; /* upper 3 bytes */ 


dev->class = class; 

class >>= 87 

/* "Unknown power state" */ 
dev->current_state = PCI_UNKNOWN; 


/* Early fixups, before probing the BARs */ 


pei_fixup_device (pci_fixup_early, dev); 
class = dev->class >> 8; 


pci_setup_device 函数 第 一 部 分 是 读 设备 类 的 信息 。 前 面 的 高 24 位 是 class 信息 ， 后 面 的 





低 8 位 是 revision 信息 ， 并 根据 读 取 的 信息 设置 PCI 设备 。 
pci_setup_device 函数 第 二 部 分 是 根据 设备 的 类 型 读 需 要 的 信息 。 
switch (dev->hdr_type) ( /* header type */ 
case PCI_HEADER_TYPE_NORMAL: /* standard header */ 
if (class =- PCI_CLASS_BRIDGE_PCI) 
goto bad; 
/* 读 中 断 信息 */ 


pei_read_irq(dev); 

/* 读 配 置 空间 的 资源 信息 ， 总 共 可 以 有 6 条 信息 */ 

Pei_read bases (dev, 6, PCI_ROM ADDRESS); 

/* 读 子 系统 厂商 ID*/ 

pci_read config word(dev, PCI_SUBSYSTEM VENDOR_ID, &dev->subsystem vendor); 
/* 读 子 系统 ID*/ 

pci_read_config_word(dev, PCI_SUBSYSTEM_ID, gdev->subsystem device); 





break; 
case PCI_HEADER_TYPE BRIDGE: /* bridge header */ 
if (class != PCI_CLASS_BRIDGE_PCI) 
goto bad; 


/* The PCI-to-PCI bridge spec requires that subtractive 
decoding (i.e. transparent) bridge must have programming 
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interface code of 0x01. */ 
pei_read irq(dev); 


dev->transparent = ((dev->class 5 Oxff) == 1)7 
pei_read bases(dev, 2, PCI_ROM ADDRESS1); 
break; 


[省略 card bus 类 型 的 处 理 代码 */ 
设备 有 三 种 类 型 : 通常 的 PCI 设备、PCI 桥 设备 和 CARDBUS 设备 。 每 种 设备 都 要 读 中 
断 信息 和 资源 信息 。PCI 设备 的 配置 空间 提供 两 种 资源 ， 一 种 是 IO 端口 ， 另 一 种 是 IO 内 
存 。 普 通 设 备 可 以 提供 六 个 资源 信息 ， 而 桥 设备 只 有 两 个 资源 信息 。 
操作 系统 扫描 PCI 总 线 ， 目 的 就 是 获得 PCI 设备 的 信息 ， 然 后 为 每 个 设备 分 配 一 个 PCI 
设备 结构 。PCI 总 线 扫描 到 设备 之 后 ， 需 要 为 设备 加 载 正 确 的 驱动 。 这 部 分 内 容 在 第 6 章 和 
第 7 章 已 经 介绍 ， 此 处 不 再 分 析 。 


8.3 本 章 小 结 


PCI 总 线 可 说 是 现代 计算 机 系统 中 最 重要 的 总 线 ， 当 PCI 总 线 扫描 到 PCI 设备 后 ,已 经 
为 设备 设置 了 DMA 信息 、 中 断 信息 和 UO 端口 、UO 内 存 信息 ， 这 些 信息 是 实现 PCI 设备 驱 
动 的 基础 ， 也 是 深入 理解 PCI 设备 驱动 的 重要 点 。 内 核 中 实现 了 大 量 PCI 设备 的 驱动 ， 读 者 
可 以 挑选 熟悉 的 驱动 ， 分 析 一 下 驱动 如 何 处 理 这 些 信息 。 


第 9 章 


块 设备 


对 于 驱动 工程 师 来 说 ， 块 设备 和 字符 设备 是 开发 过 程 中 经 常用 到 的 概念 。 字 符 设备 通 






过 函数 init_special_inode 为 字符 设备 设置 函数 指针 。 对 于 块 设备 而 言 ， 这 部 分 的 架构 是 相同 
的 ， 也 是 通过 init_special_inode 为 块 设备 设置 函数 指针 。 不 同 之 处 是 ， 赋 予 字符 设备 的 函数 


指针 结构 是 def_chr_fops， 而 赋予 块 设备 的 函数 指针 结构 是 def_blk_fops。 
这 种 类 似 的 架构 减 小 了 学 习 的 理解 难度 ， 能 从 已 知 的 知识 点 推广 到 未 知 的 知识 点 ， 可 以 
提升 学 习 的 信心 


9.1 块 设备 的 架构 

和 字符 设备 比较 ， 块 设备 有 很 多 不 同 的 地 方 。 实际 上 ， 块 设备 常常 和 磁盘 关联 在 
它 的 使 用 和 管理 比 字符 设备 要 复杂 。 本 章 的 分 析 忽 略 块 设备 和 字符 设备 相同 的 地 方 ， 
绍 块 设备 的 独特 之 处 。 首 先 从 块 设备 的 结构 定义 着 手 


9.1.1 块 设备 、 磁 盘 对 象 和 队列 
块 设备 一 般 总 和 通用 磁盘 对 象 gendisk 捆绑 在 一 起 。 块 设备 的 结构 定义 如 下 所 示 ， 其 中 
省 略 了 当前 不 关心 的 内 容 : 
struct block device { 
/省略 部 分 代码 */ 


struct gendisk *bd_ disk; 
上 


通用 磁盘 对 象 是 在 计算 机 启动 时 扫描 磁盘 或 者 磁盘 插入 计算 机 槽 位 时 ， 内 核 为 物理 磁盘 
创建 的 数据 结构 (光盘 、 磁 带 设备 也 用 通用 磁盘 对 象 表示 )。 

通用 磁盘 对 象 创建 后 ， 一 般 要 在 根 目录 的 dev 目录 下 面 ,创建 一 个 设备 文件 ， 这 个 设备 
文件 被 指明 为 块 设备 ， 具 有 自己 的 磁盘 名 。 所 以 通用 磁盘 对 象 创建 在 前 ， 等 用 户 打开 块 设备 
时 ， 会 绑 定 块 设备 到 相关 的 通用 磁盘 对 象 。 
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通用 磁盘 对 象 的 结构 定义 如 下 : 
struct gendisk { 
int major; /* major number of driver */ 
int first_minors; 
int minors; /* maximum number of minors, =1 for disks that can't be partitioned. 
char disk name[32]; /* name of major driver */ 


struct block device operations *fops; 
struct request_queue *queue; 
ef/* 省 略 部 分 代码 */ 

} 


好 


结构 定义 中 省 略 了 一 些 无 关 的 成 员 ， 保 留 重要 的 成 员 。 结 构成 员 首先 是 主 从 设备 号 ， 然 


后 是 磁盘 的 名 字 。 


区 别 块 设备 和 字符 设备 的 最 重要 成 员 就 是 队列 queue， 所 有 对 通用 磁盘 对 象 的 IO 操作 
都 要 进入 这 个 队列 queue 排队 ， 然 后 再 由 内 核 处 理 。 这 里 块 设备 队列 是 个 笼统 的 说 法 ， 其 实 
块 设备 使 用 的 队列 既 包 括 块 设备 自身 的 队列 ， 也 包括 块 设备 隐 含 的 电梯 对 象 的 队列 。 在 具体 


的 使 用 中 ， 可 以 看 到 这 两 种 队列 的 不 同 之 处 。 
9.1.2 块 设备 和 通用 磁盘 对 象 的 乡 定 


通用 磁盘 对 象 需要 把 自身 注册 到 系统 的 管理 链表 中 。 这 是 通过 blk_register_region 函数 来 


实现 的 ， 如 代码 清单 9-1 所 示 。 
代码 清单 9-1 blk_register_region 








void blk_register region(dev t dev, unsigned long range, struct module *module, 


struct kobject *(*probe) (dev_t, int *, void *), 
int (*lock) (dev_t, void *), void *data){ 
kobj_map (bdev_map, dev, range, module, probe, lock, data); 
} 





kobj_map 是 一 个 熟悉 的 函数 ， 在 第 5 章 已 经 分 析 过 ， 作 用 是 把 设备 号 注册 到 系统 的 管理 


链表 。 
通过 设备 号 获得 通用 磁盘 对 象 时， 需要 调用 get_gendisk 函数 ， 如 代码 清单 9-2 所 示 。 


代码 清单 9-2 get_gendisk 





struct gendisk *get_gendisk(dev_t dev, int *part){ 
struct kobject *kobj = kobj_lookup (bdev map, dev, part); 
return kobj ? to_disk(kobj) : NULL; 

} 





kobj_lookup 也 是 一 个 熟悉 的 函数 ， 作 用 是 根据 设备 号 搜索 kobj 结构 ， 然 后 通过 


container 方法 获得 通用 磁盘 对 象 结构 指针 。 
再 次 回顾 init_special_inode 函数 对 块 设备 的 处 理 代码 : 


} else if (Ss_ISBLK(mode)) { 
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inode->i_fop = sdef blk_fops; 
inode->i_rdev = rdev; 


} 
块 设备 的 特殊 inode 的 操作 函数 结构 被 设置 为 def_blk_fops， 而 inode 自身 也 保存 了 设备 
号 ,共同 的 设备 号 把 块 设备 和 通用 磁盘 对 象 关 联 了 起 来 。 


9.1.3 块 设备 的 队列 和 队列 处 理 函数 
通用 磁盘 对 象 包含 一 个 队列 queue， 块 设备 的 队列 其 实 是 借用 这 个 队列 。 队 列 的 结构 定 
义 如 代码 清单 9-3 所 示 。 
代码 清单 9-3 request_queue 





struct request_queue 
{ 
J» 
* Together with queue head for cacheline sharing 
4 
struct list_headqueue_head; 


elevator 上 “elevator; 


request_fn_proc *request_fn; 
merge_request_fn “back_merge_fn; 
merge_request_fn “front_merge_fn; 
merge_requests_fn *merge_requests_fn; 
make_request_fn “make_request_fn; 
prep_rq_fn *prep_rq_fn; 
unplug_fn *unplug_fny 
merge_bvec_fn *merge_bvec_fn; 
activity_fn “activity_fn; 
issue_flush_fn “issue_flush_fn; 
prepare_flush_fn *prepare flush_fn; 
softirq_done_fn *softirq_done_fn; 


时 





这 个 结构 中 最 重要 的 有 两 点 ， 一 是 结构 中 封装 了 一 个 elevator t 指针 ， 二 是 队列 中 包含 
了 众多 的 队列 处 理 函 数 指针 。 

块 设备 一 般 具 有 连续 读 写 快 、 随 机 读 写 慢 的 特征 (硬盘 这 种 机 械 装置 的 物理 特征 )。 所 有 
在 块 设备 队列 中 排队 的 读 写 请 求 ， 需 要 经 过 elevator t 进行 次 序 调整 ， 然 后 才 真正 由 块 设备 
执行 读 写 。elevator 结构 提供 了 一 种 框架 。 这 个 框架 提供 不 同 的 调度 算法 ， 后 文 将 分 析 块 设 
备 的 调度 算法 。 

在 内 核 的 UO 处 理 流程 中 ， 需 要 调用 队列 中 的 处 理 函 数 。 比 如 make_request_f 用 来 
将 IO 请 求 插入 到 队列 ， 而 request_fn_proc 则 用 来 从 队列 中 获得 一 个 1/O 请 求 。 当 完成 UO 
时 ， 调 用 软 中 断 处 理 函 数 softirq_done_fn 处 理 。 入 队列 的 次 序 和 出 队列 的 次 序 可 能 不 同 ， 这 
是 IO 调度 算法 提供 的 功能 。 
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9.2 块 设备 创建 的 过 程 分 析 


从 内 核 中 ， 选 择 位 于 目录 drivers\block 的 nbd 驱动 作为 一 个 简单 的 块 设备 例子 ， 根 据 代 
码 前 部 的 说 明 ， 这 个 驱动 是 为 了 在 网 络 环境 中 使 用 块 设备 而 提供 的 。 

这 个 例子 可 以 帮助 我 们 快速 理解 块 设备 的 整体 架构 ， 了 解 队列 、 通 用 磁盘 对 象 和 块 设备 
这 种 架构 的 使 用 方式 。 


9.2.1 nbd 驱动 的 初始 化 


首先 从 nbd 驱动 的 初始 化 函数 开始 分 析 ， 这 个 初始 化 函数 是 nbd_init， 如 代码 清单 9-4 


代码 清单 9-4 nbd_init (nbd.c) 


static int _init nbd_init (void) 
{ 

int err ~ -ENOMEM; 

int i; 





BUILD_BUG_ON (sizeof (struct nbd_request) != 28); 
/* 判断 nbd 设备 数目 不 能 超过 最 大 许可 数目 */ 
if (nbds max > MAX_NBD) 1 
printk (KERN_CRIT "nbd: cannot allocate more than %u nbds; 
Wu requested.\n", MAX_NBD, nbds_max); 
return -EINVAL; 
} 
for (i = 0; i < nbds_ max; i++) { 
struct gendisk *disk = alloc disk(1); 
if (!disk) 
goto out; 
nbd dev[i].disk = disk; 


* 注册 nbd 自身 的 request_fn 函数 指针 */ 
disk->queue = blk_init_queue(do_nbd_request, snbd_lock); 
if (ldisk->queue) 1 
put_disk(disk); 
goto out; 
} 
} 
/* 注册 块 设备 */ 
if (register blkdev (NBD MAJOR, "nbd™)) { 
err = -EIO; 
goto out; 
} 





nbd_init 函数 第 一 部 分 首先 申请 足够 的 通用 磁盘 对 象 ， 然 后 为 每 个 通用 磁盘 对 象 注 册 它 
的 处 理 函 数 ， 这 是 通过 blk_init_queue 函数 实现 的 。 
nbd_init 函数 第 二 部 分 设置 通用 磁盘 对 象 的 参数 。 
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for (i = 0; i < nbds max; i++) { 

struct gendisk *disk = nbd dev[i].disk; 
nbd_dev[i] .file = NULL; 
nbd_dev[i] .magic = LO_MAGIC; 
nbd_dev[il .flags = 07 
spin lock init (énbd dev[i] .queue_lock); 
INIT_LIST_HEAD (Enbd_dev[i] .queue_head); 
mutex init (énbd dev[i] .tx_lock)7 
init waitqueue head (énbd dev[i].active wq); 
nbd_dev[i] .blksize = 1024; 
nbd_dev[i] .bytesize = Ox7ffffc00ULL << 10; /* 2TB */ 
/* 设置 通用 磁盘 对 象 的 主 从 设备 号 */ 
disk->major = NBD_MAJOR; 
disk->first_minor = i; 
/* 设置 nbd 设备 的 I/O control 函数 */ 
disk->fops = snbd_fops; 
disk->private_data = énbd dev[i]; 
disk->flags |= GENHD_FL_SUPPRESS_PARTITION_INFO; 
sprintf (disk->disk_name, "nbd%d", i); 
set_capacity(disk，0x7ffffc00ULL << 1); /* 2 TB */ 
add_disk (disk); 

} 

return 0; 


块 设备 的 读 写 不 是 通过 独立 的 读 写 函数 实现 的 ， 而 是 通过 队列 处 理 函 数 来 完成 的 。 通 
用 磁盘 对 象 的 操作 函数 结构 体 nbd_fops 并 不 需要 设置 读 写 函 数 ， 所 以 只 提供 了 1/O control 
函数 。 

设置 通用 磁盘 对 象 的 名 字 和 设备 容量 之 后 ， 调 用 add_disk 把 磁盘 对 象 注册 到 系统 。 


9.2.2 为 通用 磁盘 对 象 创建 队列 成 员 
nbd_init 调用 了 blk_init_queue 函数 ， 目 的 是 为 通用 磁盘 对 象 创建 queue 成 员 ， 并 设置 队 
列 的 处 理 函 数 ， 如 代码 清单 9-5 所 示 。 
代码 清单 9-5 blk_init_queue(Il_rw_bik.c) 


request_queue t *blk init queue(request fn _proc *rfn, spinlock t *lock) 
{ 

return blk_init_queue node(rfn, lock, -1); 
} 





request queue t * 
blk_init_ queue node(request fn proc *rfn, spinlock t *lock, int node id) 
{ 

/* 创建 一 个 队列 结构 */ 

request_queue t *q = blk_alloc_queue_node (GFP_KERNEL，node_ id); 
ee/* 省 略 部 分 代码 */ 
/* 注册 request_fn 函数 */ 
q->request_fn 
q->back_merge_fn 





rfn; 
11 back merge_fn; 
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q->front_merge_fn 
q->merge_requests_fn 
q->prep_rq_fn 
q->unplug_fn = generic_unplug_device; 
q->queuve flags (1 << QUEUE_FLAG_CLUSTER); 
q->queue_lock = lock; 


11_front merge_fn; 
11 merge_requests_fn; 
NULL; 









blk_ queue_segment boundary(q, Oxffffffff); 
/* 设置 块 设备 入 队列 函数 */ 
blk_queue_make_request(q，_ make_request); 
/* 设置 最 大 段 的 尺寸 */ 
blk_queue max_segment_size(q, MAX_SEGMENT_ SIZE); 
/* 硬件 能 处 理 的 最 大 段 数目 */ 
blk queue max_hw_segments(q, MAX_HW_SEGMENTS); 
blk_queue max_phys_segments (q, MAX_PHYS SEGMENTS); 
J» 
* all done 
9 
/* 申请 一 个 elevator 结构 */ 
if (!elevator init(q, NULL)) { 
blk_queue_congestion threshold(q); 
return q; 


} 


blk_put_queue (q); 
return NULL; 





blk_init_queue 函数 设置 了 队列 的 人 队列 函数 make_request_fn 和 出 队列 函数 request_fn， 
还 有 众多 IO 请 求 合 并 函数 以 及 队列 闭塞 函数 等 。 为 队列 设置 的 众多 参数 中 很 多 都 和 具体 物 
理 设备 有 关 ， 这 些 参数 的 应 用 将 在 内 核 的 1/0 处 理 流程 中 体现 。 最 后 调用 elevator_init 初始 
化 一 个 elevator 对 象 ， 并 设置 默认 的 IO 调度 算法 。 


9.2.3 将 通用 磁盘 对 象 加 入 系统 


现在 返回 nbd_init 函数 ， 分 析 add_disk 函数 如 何 把 通用 磁盘 对 象 加 入 系统 ， 如 代码 清 
单 9-6 所 示 。 


代码 清单 9-6 add _disk (genhd.c) 


void add disk(struct gendisk *disk) 
{ 
disk->flags |= GENHD_FL_UP; 
blk_register region (MKDEV (disk->major, disk->first_minor), 
disk->minors, NULL, exact_match, exact_lock, disk); 
register disk(disk); 
blk_register_ queue (disk); 
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这 个 函数 由 三 个 子 函数 组 成 。blk_register_region 调用 的 就 是 kobj_map， 把 通用 磁盘 
对 象 的 设备 号 加 入 系统 的 块 设备 链表 。 后 续 查 找 通用 磁盘 对 象 通过 函数 kobj_lookup 执行 。 
register_disk 创建 了 一 个 块 设备 对 象 ， 并 完成 块 设备 和 通用 磁盘 对 象 的 绑 定 。 这 个 过 程 在 块 
设备 打开 时 候 还 会 执行 一 次 ， 这 在 后 文 分析 。 
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Linux 通过 块 设备 文件 系统 来 管理 块 设备 ， 这 听 起 来 似乎 不 可 理解 ， 但 思索 Linux 文件 
系统 的 架构 ， 文 件 系统 可 以 看 做 一 个 对 象 ， 对 象 中 包含 超级 块 、inode 和 文件 等 结构 ， 以 及 它 
们 的 处 理 函 数 。 而 块 设备 是 文件 系统 的 一 个 文件 (通过 mknod 命令 生成 )， 和 字符 设备 input 
的 架构 类 似 ， 同样 可 以 把 块 设备 作为 一 个 框架 ,注册 不 同 的 处 理 函 数 。 

用 面向 对 象 的 思想 比较 容易 理解 内 核 的 这 种 设计 思路 。 块 设备 文件 系统 是 一 种 对 象 ， 这 
种 对 象 提供 的 方法 和 数据 可 以 被 男 外 的 文件 系统 对 象 使 用 。 通 读 内 核 代码 ， 面 向 对 象 的 设计 
思路 使 用 的 非常 普遍 ，1/O 调度 算法 和 电梯 elevator 结构 都 可 以 看 做 封装 的 对 象 。 


9.3.1 块 设备 文件 系统 的 初始 化 
对 块 设备 文件 系统 的 分 析 需 要 从 初始 化 函数 bdev_cache_init 开始 ， 如 代码 清单 9-7 
所 示 。 
代码 清单 9-7 bdev_cache_init 


void _init bdev_cache_init (void) 
{ 








int err; 
bdev_cachep ~ kmem_cache_create ("bdev cache", sizeof(struct bdev_inode), 
0, (SLAB_HWCACHE ALIGN|SLAB_RECLAIM_ACCOUNT| 
SLAB MEM_SPREAD| SLAB_PANIC), 
init_once, NULL); 
err = register filesystem(ébd_type); 
if (err) 
panic("Cannot register bdev pseudo-fs"); 
bd_mnt = kern_ mount (56bd_ type); 
err = PTR_ERR(bd_mnt); 
if (IS_ERR(bd_mnt)) 
panic("Cannot create bdev pseudo-fs"); 
blockdev_superblock = bd_mnt->mnt_sb; /* For writeback */ 
} 





这 个 初始 化 函数 首先 把 块 设备 文件 系统 注册 到 内 核 ， 然 后 调用 kern_mount 创建 文件 系统 
必要 的 数据 结构 。 第 2 章 已 经 分 析 过 类 似 的 文件 系统 初始 化 代码 ， 此 处 不 袭 述 。 


136 9 第 9 章 块 设备 


9.3.2 块 设备 文件 系统 的 设计 思路 
根据 掌握 的 文件 系统 知识 ， 我 们 从 两 个 方面 理解 文件 系统 - 
口 第 一 个 方面 是 文件 系统 超级 块 对 象 提供 的 操作 函数 。 
口 第 二 个 方面 是 文件 系统 为 inode 结构 和 文件 对 象 提供 的 操作 函数 。 
首先 分 析 块 设备 文件 系统 超级 块 提供 的 操作 函数 bdev_sops， 如 下 所 示 : 
static struct super_operations bdev sops = { 
.statfs = simple statfs, 
.alloc_inode = bdev alloc_inode, 
.destroy_inode = bdev_destroy_inode, 
.drop_inode = generic delete inode, 
.clear_inode = bdev_clear_inode, 
}» 
这 个 结构 里 面 ， 只 有 bdev_alloc_inode 函数 和 bdev_destroy_inode 函数 是 块 设备 文件 系 
统 提 供 的 独特 函数 ， 其 他 都 是 借用 系统 的 通用 处 理 函 数 。 函 数 bdev_destroy_inode 非常 简单 ， 
读者 自行 分 析 即 可 。 
通过 分 析 bdev_alloc_inode 函数 即 可 了 解 块 设备 文件 系统 的 主要 设计 思路 ， 如 代码 清 
单 9-8 所 示 。 
代码 清单 9-8 bdev_alloc_inode (block_dev.c) 





static struct inode *bdev_alloc_inode(struct super_block *sb) 
{ 
atruct bdev inode *ei ~ kmem cache alloc(bdev cachep, SLAB_ KERNEL); 
if (!ei) 
return NULL; 
return &ei->vfs_inode; 
} 





块 设备 文件 系统 提供 了 一 个 独特 的 结构 bdev_inode。 这 个 结构 封装 了 一 个 块 设备 结构 和 
一 个 inode 结构 。inode 结构 适应 文件 系统 统一 的 接口 需要 ， 而 块 设备 结构 则 提供 了 块 设备 需 
要 的 功能 ， 这 就 是 块 设备 文件 系统 架构 设计 的 巧妙 之 处 。 

文件 系统 的 第 二 个 重要 方面 是 inode 结构 和 文件 对 象 操作 函数 。 块 设备 文件 系统 不 需要 
创建 目录 和 文件 ， 因 此 没有 提供 inode 的 操作 函数 。 文 件 对 象 的 操作 函数 中 ， 读 写 函 数 使 用 
了 内 核 提 供 的 通用 读 写 函 数 (将 在 第 10 章 分 析 )， 因 此 本 节 重 点 关注 块 设备 的 打开 流程 。 


9.4 块 设备 的 打开 流程 

通常 打开 块 设备 有 两 种 方式 ， 一 种 是 直接 打开 块 设备 ， 也 称 为 裸 设备 使 用 方式 。 通 过 这 
种 方式 打开 块 设备 ， 实 际 上 是 调用 了 块 设备 文件 系统 提供 的 blkdev_open 函数 。 如 下 面 代码 
所 示 : 


fopen (/dev/sda) 
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另外 一 种 方式 是 通过 文件 系统 间接 使 用 块 设备 。 块 设备 文件 系统 提供 了 open_bdev_excl 
函数 。 当 文件 系统 建立 在 块 设备 之 上 时 ， 需 要 调用 这 个 函数 来 绑 定 块 设备 和 文件 系统 ， 在 文 
件 系统 的 超级 块 结构 中 保存 所 在 块 设备 的 信息 。 

从 内 核 代 码 的 角度 来 看 ， 这 两 种 打开 方式 实际 上 类 似 。 因 此 本 节 以 裸 设备 使 用 方式 为 例 
进行 分 析 。 

打开 一 个 块 设备 文件 ， 最 终 是 调用 init_special_inode 函数 为 块 设备 文件 提供 的 默认 处 理 
函数 封装 结构 def blk_fops， 这 个 结构 也 就 是 块 设备 文件 系统 提供 的 文件 操作 函数 结构 。 打 
开 一 个 块 设备 ， 实 际 就 调用 了 这 个 结构 里 面 提供 的 blkdev_open 函数 ， 如 代码 清单 9-9 所 示 。 


代码 清单 9-9 blkdev_open (block_dev.c) 


static int blkdev_open(struct inode * inode, struct fle * filp) 
struct block_device *bdev; 
int resy 





filp->f£ flags | O_LARGEFILE; 
/* 获得 块 设备 对 象 */ 


bdev ~ bd_acquire (inode); 


res = do_open(bdev, filp, BD_MUTEX_NORMAL); 
if (res) 
return res; 


if (!(filp->f£ flags & O_EXCL) ) 
return O; 

/* 设置 块 设备 和 文件 的 参数 */ 

if (!(res = bd_claim(bdev, filp))) 
return 0; 


blkdev_put (bdev); 
return res; 


} 





函数 blkdev_open 首先 通过 bd_acquire 获得 块 设备 对 象 ， 然 后 调用 do_open 执行 块 设备 
的 打开 过 程 。 


9.4.1 获取 块 设备 对 象 


首先 分 析 bd_acquire 函数 ， 它 的 作用 是 从 块 设备 文件 系统 获得 块 设备 对 象 。 本 节 分 两 部 
分 介绍 bd_acquire 函数 。 


1. 块 设备 对 象 已 经 存在 
bd_acquire 函数 第 一 部 分 ， 判 断 块 设备 对 象 是 否 存在 。 如 果 已 经 存在 ， 只 增加 bd_inode 
的 引用 计数 ， 然 后 返回 ， 如 代码 清单 9-10 所 示 。 
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代码 清单 9-10 bd_acquire (block_devc) 





static struct block device *bd_acquire(struct inode *inode) 


{ 
struct block device *bdev; 


spin lock (sbdev_lock); 
bdev = inode->i_bdev; 
/* 如 果 已 经 有 块 设备 对 象 ， 则 只 增加 引用 计数 ， 然 后 返回 */ 
if (bdev) 1 
atomic_inc (sbdev->bd_inode->i_count); 
spin_unlock (sbdev_lock); 
return bdev; 
} 





需要 指出 的 是 ， 操 作 系 统 启动 时 要 扫描 硬盘 ， 对 扫描 到 的 硬盘 要 调用 add_disk 函数 注 
册 。 注 册 的 过 程 执 行 了 块 设备 的 打开 过 程 ， 创 建 块 设备 文件 系统 的 数据 结构 ， 如 inode 结 
构 和 块 设备 对 象 。 因 此 当 用 户 调用 fopen 打开 块 设备 的 时 候 ， 将 直接 获得 已 经 打开 的 块 设 
备 对 象 。 


2. 申请 块 设备 对 象 
bd_acquire 函数 第 二 部 分 ， 通 过 bdget 函数 申请 块 设备 对 象 。 如 果 成 功 ， 则 inode 的 
i_mapping 设置 为 块 设备 关联 inode 的 i_mapping。i_mapping 成 员 是 块 设备 读 写 功能 的 一 个 
关键 成 员 ， 后 文 将 继续 分 析 这 个 成 员 。 
/* 申请 块 设备 对 象 */ 


bdev ~ bdget (inode->i_rdev); 
if (bdev) { 
spin_lock(sbdev_lock); 
if (linode->i_bdev) { 
/* 增加 引用 计数 “/ 
atomic_inc(sbdev->bd_inode->i_count)7 
inode->i_bdev = bdev; 
inode->i_mapping = bdev->bd_inode->i_mapping; 
list_add(sinode->i_devices, sbdev->bd_inodes); 
} 


bdget 函数 可 以 分 为 两 部 分 ， 如 代码 清单 9-11 所 示 。 第 一 部 分 通过 块 设备 文件 系统 分 
配 一 个 bdev_inode 对 象 ， 第 二 部 分 为 这 个 对 象 设置 一 系列 的 参数 ， 包 括 设备 号 、 块 设备 指 
针 等 。 


代码 清单 9-11 bdget (block_dev.c) 


struct block device *bdget (dev_t dev) 
{ 
struct block_device *bdev; 
struct inode *inode; 
/* 创建 一 个 bdev_inode 结构 */ 
inode = iget5 locked(bd mnt->mnt_sb, hash(dev), 
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bdev_test, bdev_set, &dev); 


if (!inode) 
return NULL; 
/* 返回 bdev_inode 结构 包含 的 块 设备 结构 */ 
bdev = 5BDEV_I(inode) ->bdev; 


if (inode->i_state & I_NEW) { 
bdev->bd_contains = NULL; 
bdev->bd_inode = inode; 
bdev->bd_block_size = (1 << inode->i blkbits); 
bdev->bd_part_count = 0; 
bdev->bd_invalidated = 0; 
inode->i_mode = S_IFBLI 
inode->i_rdev = dev; 
inode->i bdev ~ bdev; 
inode->i_data.a_ops = 5&def_ blk _aops; 
mapping_set_gfp_mask (sinode->i_data, GFP_USER); 
/*backing_dev_info 主要 为 文件 的 预 读 服务 */ 
inode->i_data.backing_dev_info = sdefault_backing_dev_infoy 
spin_lock(sbdev_lock); 
list add(&bdev->bd_ list, 5&all bdevs); 
spin_unlock (sbdev_lock); 
unlock_new_inode (inode) 7 





return bdev; 





inode 结构 成 员 i_data 对 象 包含 的 处 理 函 数 设 置 为 块 设备 文件 系统 提供 的 默认 函数 结构 
def blk_aops， 这 个 结构 包含 的 函数 指针 是 对 磁盘 进行 读 写 的 底层 处 理 函 数 ， 在 后 续 章 节 中 
将 继续 分 析 。 
分 配 bdev_inode 对 象 通过 iget5_locked 实现 ， 如 代码 清单 9-12 所 示 。 


代码 清单 9-12 iget5_locked (inode.c) 


struct inode *iget5 locked(struct super block *sb, unsigned long hashval, 
int (*test) (struct inode *, void *), 
int (*set) (struct inode *, void *), void *data) 





struct hlist_head *head = inode_hashtable + hash(sb, hashval); 
struct inode *inode; 
/* 搜索 hash 链表 ， 寻 找 是 否 已 经 存在 一 个 inode*/ 
inode = ifind(sb, head, test, data, 1); 
if (inode) 
return inode; 
return get_new_inode(sb, head, test, set, data); 


static struct inode * get new inode(struct super block *sb, 
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struct hlist head *head, int (*test) (struct inode *, void *), 
int (*set) (struct inode *, void *), void *data) 
{ 

struct inode * inode; 

/* 申请 一 个 inode 结构 */ 

inode = alloc_inode (sb); 

if (inode) { 

struct inode * old; 


spin_lock(sinode_lock); 
/* We released the lock, so.. */ 

old = find_inode(sb, head, test, data); 
if (!01d) { 

省 略 部 分 代码 */ 


return inode; 





1 

/* 其 他 任务 已 经 创建 了 inode*/ 
iget (ol1d); 

spin_unlock (sinode_lock); 
destroy_inode (inode); 
inode = old; 
wait_on_inode (inode); 


上 
return inode; 


函数 iget5_locked 首先 搜索 inode 的 hash 链表 ， 如 果 不 能 找到 同 设备 号 的 inode， 则 创建 
一 个 新 inode 结构 。 创 建 完 毕 ， 仍 然 要 调用 find_inode 再 搜索 一 遍 ， 这 是 因为 在 创建 inode 的 
过 程 中 ， 可 能 有 其 他 任务 抢先 创建 了 ， 这 种 情况 下 ， 要 释放 刚 创建 的 inode。 


9.4.2 执行 块 设备 的 打开 流程 
现在 返回 blkdev_open 函数 ， 通 过 bd_acquire 获得 块 设备 对 象 后 ，do_open 执行 块 设备 的 
打开 流程 。 函 数 do_open 分 三 部 分 介绍 。 


1. 获得 和 块 设备 绑 定 的 通用 磁盘 对 象 
第 一 部 分 调用 get_gendisk 获得 和 块 设备 绑 定 的 通用 磁盘 对 象 。 


do_open (struct block device *bdev, struct file *file, unsigned int subclass) 
{ 
struct module *owner = NULL; 
struct gendisk *disk; 
int ret = -ENXIO; 
int part; 
/* 为 文件 的 f_mapping 赋值 。f_mapping 主要 为 文件 的 读 写 过 程 服务 */ 
file->f_mapping = bdev->bd_inode->i_mapping; 
lock_kernel (); 
disk = get_gendisk (bdev->bd_dev, spart); 
if (ldisk) { 
/* 如 果 通 用 磁盘 对 象 不 存在 ， 返 回 失败 */ 
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unlock_kernel (); 
bdput (bdev) ; 
return ret; 

上 


owner = disk->fops->owneri 


get_gendisk 函数 part 参数 的 目的 是 获得 通用 磁盘 对 象 的 分 区 信息 。 众 所 周知 ， 硬 盘 可 
以 存在 多 个 分 区 ， 分 区 的 主 设备 号 相同 ， 而 次 设备 号 不 同 。 硬 盘 自 身 存 在 和 它 对 应 的 块 设备 
对 象 ， 每 个 分 区 也 都 有 各 自 的 块 设备 对 象 。part 为 0 说 明 使 用 的 是 硬盘 自身 的 块 设备 对 象 ， 
如 果 part 不 为 0， 说 明 使 用 的 是 分 区 的 块 设备 对 象 。 


2. 块 设备 未 被 打开 的 处 理 

函数 do_open 第 二 部 分 是 处 理 块 设备 未 被 打开 ， 上 且 块 设备 是 硬盘 设备 自身 的 情况 。 

这 种 情况 首先 执行 磁盘 本 身 提供 的 open 函数 ， 然 后 设置 块 设备 的 容量 信息 以 及 后 备 设备 
信息 ( backing_dev_info)， 后 备 设备 信息 主要 为 设备 的 预 读 算法 服务 。 最 后 如 果 需 要 扫描 分 
区 ， 应 调用 rescan_partitions 扫描 硬盘 的 所 有 分 区 。 


if (!bdev->bd_openers) 1{/* 如 果 块 设备 未 被 打开 */ 
bdev->bd disk = disk; 
bdev->bd_contains = bdev; 
if (!part) { 
struct backing_dev_info *bdi; 
if (disk->fops->open) { 
ret = disk->fops->open (bdev->bd_inode, file); 
if (ret) 
goto out first; 
} 
if (!bdev->bd_openers) { 
bd_set_size(bdev, (loff t)get_capacity (disk)<<9); 
bdi = blk get backing dev_info(bdev); 
if (bdi == NULL) 
bdi = sdefault_backing_dev_info; 
bdev->bd_inode->i_data.backing dev_info = bdi; 
} 
if (bdev->bd_invalidated) 
rescan_partitions (disk, bdev); 


3. 块 设备 是 硬盘 分 区 的 处 理 
函数 do_open 第 三 部 分 处 理 块 设备 是 硬盘 分 区 的 情况 。 
这 种 情况 首先 要 获得 硬盘 自身 块 设备 对 象 。 这 一 步 通过 调用 输入 参数 为 0 的 bdget_disk 
函数 实现 ， 参 数 为 0 说 明 要 求 的 对 象 索引 值 为 0， 正 是 整个 硬盘 对 应 的 块 设备 对 象 。 
1 else ! 
struct hd_struct *p; 
struct block device *whole; 
/* 获得 磁盘 案 引 为 0 的 块 设备 ， 也 就 是 主 盘 的 块 设备 对 象 */ 


whole = bdget_disk(disk, 0); 
ret = -ENOMEM; 


142 9 第 9 章 块 设备 


if (!whole) 
goto out first; 
ret = blkdev_get_whole (whole, file->f mode, file->f flags); 
if (ret) 
goto out first; 
/* 设置 块 设备 的 容器 bd_contains 是 整个 盘 ， 而 不 是 自身 */ 
bdev->bd_contains = whole; 
mutex_ lock nested(swhole->bd_mutex, BD_ MUTEX_WHOLE); 
whole->bd_part_count++; 
p= disk->part[part - 1]; 
bdev->bd_inode->i_data.backing dev_info = 
whole->bd_inode->i_data.backing_dev_info; 
if (!(disk->flags & GENHD_FL_UP) 11 !p 11 !p->nr_sects) { 
whole->bd_part_count--; 
mutex_unlock (&whole->bd_mutex); 
ret = -ENXIO; 
goto out first; 
} 
kobject_get (sp->kobj); 
bdev->bd part = p; 
bd_set_size (bdev, (loff_t) p->nr_sects << 9); 
mutex_unlock (gwhole->bd_mutex); 
} 


每 个 分 区 的 信息 (比如 分 区 的 起 始 扇 区 地 址 和 容量 ) 都 保存 在 通用 磁盘 对 象 的 part 成 员 
里 面 ， 因 此 块 设备 的 容量 要 根据 分 区 的 信息 来 设置 。 
第 三 部 分 整个 分 支 执行 成 功 的 话 ， 硬 盘 自 身 的 块 设备 对 象 的 分 区 数目 要 加 1 


9.5 本 章 小 结 


块 设备 和 字符 设备 有 明显 不 同 ， 主 要 体现 在 块 设备 的 队列 ， 以 及 块 设备 和 通用 磁盘 对 象 
的 关系 。 这 种 设计 是 基于 磁盘 的 物理 特性 ， 为 使 用 块 设备 提供 了 方便 ， 不 需要 程序 员 再 做 额 
外 的 工作 。 

内 核 有 多 种 块 设备 使 用 了 这 种 架构 ， 比 如 CD、 磁 带 、MTD 设备 等 ， 建 议 读者 以 这 些 设 
备 为 例子 ， 分 析 它 们 的 具体 实现 代码 。 
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Linux 系统 内 核 为 文件 设置 了 一 个 缓存 ， 对 文件 读 写 的 数据 内 容 都 缓存 在 这 里 。 这 个 组 
存 称 为 page cache (页 缓存 )。 


10.1 page cache 机 制 


page cache 是 Linux 操作 系统 的 一 个 特色 ， 其 中 存储 的 数据 在 UO 完成 后 并 不 回收 ， 而 是 
一 直 保留 在 内 存 中 ， 除 非 内 存 紧 张 ， 才 开始 回收 占用 的 内 存 。 


10.1.1 buffer /O 和 direct I/O 


使 用 page cache 的 1/O 操作 称 为 buffer UO， 默 认 情 况 下 ， 内 核 都 使 用 buffer UO; 但 有 的 
应 用 不 希望 使 用 内 核 缓存 ， 而 是 由 应 用 提供 内 存 ， 这 种 由 应 用 提供 内 存 的 VO 称 为 direct UO， 它 
的 特点 是 不 使 用 系统 提供 的 page cache。 

Linux 应 用 编程 接口 提供 了 文件 的 读 写 接口 ， 就 是 read 和 write 接口 。read 和 write 接口 
是 同步 IO 接口 ， 调 用 这 两 个 函数 的 进程 会 被 阻塞 ， 直 到 读 写 过 程 完成 ， 才 返回 应 用 程序 。 
和 同步 IO 接口 对 应 的 是 异步 I/O 接口 。 异 步 1O 接口 不 会 阻塞 进程 ， 而 是 立即 返回 。 异 步 
接口 需要 提供 机 制 判断 1/O 是 否 完成 。 

Linux 系统 的 buffer IO 由 于 要 填充 page cache， 必 须 等 读 IO 完成 才能 返回 ， 所 以 buffer IO 
本 身 在 内 核 中 就 会 阻塞 。 所 以 Linux 的 异步 VO 必须 是 direct WO， 才 能 不 阻塞 进程 立即 返回 。 


10.1.2 buffer head 和 块 缓存 

page cache 顾名思义 ， 是 以 页 面 为 单位 组 织 的 。Linux 内 核对 内 存 的 管理 以 页 面 为 单位 ， 
对 文件 缓存 的 管理 也 是 以 页 面 为 单位 。 如 果 一 个 文件 大 小 为 16KB， 它 正好 可 以 用 4 个 4KB 
的 页 面 来 缓存 。 因 为 内 存 有 可 能 需要 交换 到 硬盘 上 ， 而 对 硬盘 文件 的 访问 也 可 以 通过 mmap 
方式 像 访问 内 存 一 样 进行 访问 。 这 两 个 管理 单位 的 统一 ， 减 少 了 内 核 程序 转换 的 麻烦 。 
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硬盘 这 种 物理 介质 以 扇 区 为 最 小 访问 单位 。 


通常 一 个 肩 区 为 512 字 节 ， 对 硬盘 的 读 写 最 


小 单位 是 512 字 节 ， 而 文件 系统 是 以 块 的 方式 来 组 织 文件 ,文件 块 一 般 为 2 扇 区 、4 扇 区 ， 
或 者 8 扇 区 的 格式 。 文 件 系统 这 种 组 织 方式 ， 要 求 提 供 一 种 块 缓存 机 制 来 暂 存 文件 的 内 容 。 
所 以 内 核 提 供 了 buffer head 管理 结构 来 管理 块 缓存 。 

buffer head 本 身 并 没有 保存 文件 内 容 ， 文 件 内 容 实际 上 还 是 在 page cache 中 ，buffer head 
是 个 管理 结构 ， 它 只 是 标识 文件 块 的 序号 以 及 文件 块 缓存 的 地 址 。buffer head 同时 提供 对 底 
层 硬件 设备 ( 块 设备 ) 的 映射 。 代 码 清单 10-1 给 出 了 buffer head 的 结构 定义 。 


代码 清单 10-1 buffer_head 结构 定义 





struct buffer head | 
unsigned long b_state; /* 
struct buffer head *b this page; 
struct page *b_page; 


sector_t b_blocknr; 
size_t b_size; fs 
char *b_data; 


struct block device *b_bdev; 
bh_end io t *b_end io; 
void *b_private; 
struct list_head b_assoc_ buffers; 
atomic_t b_count; 

有 


buffer state bitmap (see above) */ 
circular list of page's buffers */ 
the page this bh is mapped to */ 


start block number */ 
size of mapping */ 
pointer to data within the page */ 


* I/0 completion */ 
* reserved for b_end_io */ 


associated with another mapping */ 


* users using this buffer_head */ 





解释 一 下 buffer head 数据 结构 的 重要 成 员 。 


口 b_this_page: buffer head 单 向 链表 ， 指 向 下 一 个 buffer head 结构 。 


口 b_page: 指向 数据 所 在 的 页 面 。 


口 b_blocknr : buffer head 的 起 始 块 号 。 这 个 块 号 是 以 整个 硬盘 为 空间 编 址 的 ， 所 以 可 以 


转换 为 硬盘 的 物理 扇 区 地 址 。 
口 b_data: 指向 数据 的 地 址 。 
口 b_bdev: 文件 系统 绑 定 的 块 设备 。 


口 b_end_io: 回调 函数 。IO 处 理 完毕 后 调用 这 个 函数 。 

b_blocknr 是 以 整个 硬盘 为 空间 编 址 ， 这 个 信息 只 有 文件 系统 可 以 知道 。 在 第 9 章 分 析 了 
文件 系统 打开 块 设备 的 过 程 ， 文 件 系统 的 超级 块 对 象 保存 了 块 设备 指针 ， 通 过 块 设备 指针 可 
以 获得 硬盘 的 容量 信息 和 硬盘 分 区 的 信息 ， 同 时 文件 的 数据 空间 是 由 文件 系统 分 配 的 ， 因 此 
文件 系统 知道 硬盘 上 的 数据 分 布 ， 可 以 提供 以 整个 硬盘 为 编 址 空间 的 块 号 。 硬 盘 文件 系统 一 
般 提 供 get_block 调用 将 文件 的 位 置 翻译 为 硬盘 的 块 号 信息 。 


10.1.3 page cache 的 管理 


通过 数据 结构 address_space 管理 page cache。 这 个 数据 结构 提供 了 一 个 radix tree 成 员 ， 
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文件 内 容 的 缓存 页 保存 在 这 个 radix tree 里 面 。 
对 page cache 而 言 ， 最 重要 的 调用 有 两 个 ， 一 是 插入 页 面 到 page cache， 另 一 个 是 从 
page cache 搜索 页 面 。 前 者 通过 add_to_page_cache 来 实现 ， 如 代码 清单 10-2 所 示 。 


代码 清单 10-2 add_to_page_cache (filemap.c) 





int add to page cache(struct page *page, struct address space *mapping, 
pgoff t offset, gfp t gfp_mask) 
int error = radix_tree preload(gfp mask 5 ~ GFP_HIGHMEM); 


if (error == 0) { 
write_lock_irq(smapping->tree_lock); 
error ~ radix_ tree insert (smapping->page tree, offset, page); 
if (!error) { 
page_cache get (page); 
SetPageLocked (page) ; 
page->mapping = mapping; 
page->index = offset; 
mapping->nrpagest+; 
_inc_zone_page_state (page, NR_FILE PAGES); 
上 
write_unlock_irq(émapping->tree_lock); 
radix_tree_preload end(); 
} 
return error; 
上 





这 个 函数 逻辑 很 清晰 ， 首 先是 创建 radix tree 根 节点 ， 然 后 把 页 面 加 入 到 radix tree。 加 入 
成 功 后 ， 设 置 页 面 的 index。 


从 page cache 搜索 一 个 页 面 通过 find_get_page 实现 。 这 个 函数 实现 很 简单 ， 不 再 分 析 。 


10.1.4 page cache 的 状态 


页 面 有 多 种 状态 ， 由 于 内 存 管理 的 页 和 page cache 的 页 是 同一 个 结构 ， 所 以 页 面 的 状态 
其 实 也 包含 了 page cache 页 面 需 要 的 状态 。 解 释 几 个 page cache 中 比较 重要 的 状态 。 
口 PG_uptodate : 页 包含 最 新 有 效 的 数据 。 当 读 与 该 页 对 应 的 文件 内 容 时 ， 可 以 直接 把 页 
的 内 容 复制 给 调用 者 。 
OPG_dirty: 页 包含 脏 数据 ， 需 要 写 人 到 硬盘 。 
口 PG_private: 页 私有 属性 。 在 page cache 中 ,设置 私有 属性 意味 着 为 页 创建 了 块 缓存 结 
构 (buffer head)， 同 时 页 面 数据 结构 的 private 成 员 指向 块 缓存 结构 的 头 指针 。 


口 PG_mappedtodisk : 页 已 经 映射 到 硬盘 。 页 映射 到 硬盘 意味 着 这 个 页 包含 的 所 有 块 都 已 
经 映射 到 了 硬盘 。 


块 缓存 也 有 多 种 状态 ， 解 释 其 中 比较 重要 的 几 种 状态 。 
口 BH_Mapped : 块 已 经 映射 到 硬盘 。 这 个 块 通过 调用 文件 系统 的 get_block 已 经 获得 了 
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底层 块 设备 的 指针 和 以 整个 硬盘 为 编 址 空间 的 文件 块 号 。 
口 BH_Uptodate: 块 缓存 包含 最 新 有 效 的 数据 。 
DBH_Dirty: 块 缓存 包含 脏 数据 ， 需 要 写 和 硬盘 。 


10.2 文件 预 读 
对 于 文件 读 请 求 ，Linux 内 核 提供 了 预 读 策略 ， 比 要 求 读 的 长 度 要 多 读 一 些 ， 存 储 在 
page cache 里 ， 后 续 读 如 果 是 顺序 的 ， 马 上 可 以 利用 page cache 的 数据 返回 ， 不 必 再 次 读 硬 
盘 。 对 于 硬盘 这 种 慢 速 设备 而 言 ， 利 用 缓存 数据 可 以 大 大 提升 IO 的 效率 。 
内 核 提供 了 默认 的 预 读 参 数 ， 如 代码 清单 10-3 所 示 。 
代码 清单 10-3 default_backing_dev_info 





struct backing dev_info default backing dev_ info = { 


.ra_pages = (VM_MAX_READAHEAD * 1024) / PAGE_CACHE_SIZE, 
.state = 0 

‘capabilities = BDI_CAP_MAP_COPY, 

‘unplug io_fn = default_unplug_io_fn, 





VM_MAX_READAHEAD 默认 设置 为 128KB， 也 就 是 默认 预 读 页 面 是 32 个 4KB 页 面 。 
Linux 内 核 会 根据 文件 读 是 否 顺 序 启动 预 读 参数 和 设置 预 读 窗口 ， 对 于 连续 的 顺序 读 ， 
会 尽量 多 读 一 些 内 容 填充 page cache。 
TB 
国 ) 提示 
这 部 分 内 容 在 readahead.c 文件 里 面 ， 文 件 本 身 不 大 ， 也 比较 孤立 ， 不 涉及 太 多 关联 的 知 
识 点 ， 读 者 可 以 作为 一 个 例子 ， 分 析 一 下 预 读 代 码 。 


10.3 文件 锁 


如 果 一 个 进程 对 其 他 进程 正在 读 取 的 文件 进行 写 操作 ， 虽 然 每 次 读 写 调用 都 是 原子 的 ， 
但 是 读 写 调用 之 间 并 没有 同步 ， 因 此 可 能 导致 读 进程 读 到 被 破坏 或 者 不 完整 的 数据 。 为 了 避 
免 这 种 问题 出 现 ， 必 须 有 某 种 机 制 避免 多 进程 并 发 访问 的 冲突 问题 。Linux 提供 的 机 制 就 是 
文件 锁 。 根 据 实现 机 制 的 不 同文 件 锁 可 分 为 建议 锁 和 强制 镇 两 种 类 型 。 

口 建议 锁 : 由 应 用 层 实现 ， 内 核 只 为 用 户 提供 程序 接口 ， 并 不 参与 锁 的 控制 和 协调 ， 也 

不 对 读 写 操作 做 内 部 检查 和 强制 保护 。 如 果 有 进程 不 检查 文件 是 否 有 建议 锁 就 写 人 数 

据 ， 内 核 不 加 以 阻拦 。 所 以 建议 锁 要 求 进程 都 遵守 规则 。 建 议 锁 可 以 对 整个 文件 加 锁 ， 

也 可 以 只 对 文件 的 一 部 分 加 锁 。 

口 强制 锁 : 由 内 核 强制 实施 。 只 要 有 进程 调用 读 写 操作 ， 内 核 都 会 检查 与 存在 的 锁 是 否 

冲突 ， 如 果 冲 突 ， 内 核 就 会 加 以 阻拦 。 
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根据 访问 方式 的 不 同 , 文 件 锁 又 分 为 读 锁 和 写 锁 。 
口 读 锁 : 允许 多 个 进程 同时 进行 读 操作 ， 又 称 共享 锁 。 文 件 加 了 读 锁 就 不 能 再 设置 写 锁 ， 
但 允许 其 他 进程 在 同一 区 域 青 设置 读 锁 。 
口 写 锁 ， 主要 目的 是 隔离 文件 ,使 所 写 内 容 不 被 其 他 进程 的 读 写 干扰 ， 以 保证 数据 的 完 
整 性 。 写 锁 一 旦 加 上 ， 只 有 上 锁 的 人 可 以 操作 ， 其 他 进程 无 论 读 还 是 写 都 只 能 等 待 写 
镇 释放 后 才能 执行 ， 故 写 锁 又 称 互 斥 锁 。 
如 果 一 个 文件 已 经 被 加 上 了 读 锁 ， 其 他 进程 再 对 这 个 文件 进行 写 操作 就 会 被 内 核 阻 止 。 
如 果 一 个 文件 已 经 被 加 上 了 写 锁 ， 其 他 进程 再 对 这 个 文件 进行 读 取 或 者 写 操作 就 会 被 内 核 
阻止 。 


10.4 文件 读 过 程 代码 分 析 
为 了 便于 理解 文件 的 读 写 操作 ， 图 10-1 给 出 一 个 例子 文件 的 内 容 分 布 图 。 
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图 10-1 文件 内 容 分 布 图 





文件 总 长 度 4096 字 节 x 7=28672 字 节 。 从 4096 字 节 x 2+1000 字 节 的 位 置 开始 读 ， 读 
4096 字 节 +1000 字 节 +3096 字 节 。 同 时 ， 设 定 文件 开始 在 硬盘 的 第 10000 个 记 区 ， 前 面 我 
们 已 经 知道 硬盘 扇 区 是 512 字 节 ， 文 件 的 起 始 位 置 就 是 10000 x 512 字 节 。 


内 核 处 理 读 文件 从 sys_read 函数 开始 ， 我 们 就 从 这 个 函数 开始 读 过 程 分 析 。sys_read 函 
数 的 实现 代码 如 代码 清单 10-4 所 示 。 


代码 清单 10-4 sys_read (read_write.c) 


asmlinkage ssize t sys_read(unsigned int fd, char _ user * buf，size_t count) 
{ 
struct file *file; 
ssize t ret = -EBADF; 
int fput_needed; 
file = fget light (fd, sfput_needed); 
if (file) { 
/* 获取 文件 的 当前 位 置 */ 
loff_t pos = file_pos_read(file); 
ret = vfs_read(file, buf, count, &pos); 
file_ pos write (file, pos); 
fput_light (file, fput needed); 
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return ret; 
) 





sys_read 函数 首先 根据 文件 ID 获得 文件 结构 的 指针 。 每 个 进程 都 有 一 个 files_struct 结 
构 指 针 ， 它 保存 了 进程 所 有 打开 的 文件 ， 因 此 以 文件 ID 为 索引 ， 就 可 以 获得 文件 结构 指针 。 
其 次 取得 文件 的 当前 位 置 ， 这 个 参数 是 文件 系统 内 部 保存 ， 每 次 执行 读 函 数 调用 ， 都 要 记录 
读 操作 的 最 后 位 置 ， 以 备 下 次 操作 使 用 。 

最 后 调用 vfs_read 函数 执行 文件 读 ， 读 完 之 后 ， 要 把 更 新 的 文件 当前 位 置 写 人 文件 指 
针 。vfs_read 函数 的 实现 代码 如 代码 清单 10-5 所 示 。 


代码 清单 10-5 vfs_read (read_write.c) 





ssize_t vfs_read(struct file *file, char _ user *buf, size t count, loff t *pos) 
{ 
ssize t ret; 
[省略 部 分 代码 */ 
/* 校 验 文件 的 镇 */ 
ret = rw verify_area(READ, file, pos, count); 
if (ret >= 0) { 
count = ret; 
ret = security file permission (file, MAY_READ); 
if (!ret) { 
if (fle->f_op->read) 
ret ~ file->f_op->read(file, buf, count, pos); 
else 
ret = do_sync_read(file, buf, count, pos); 





Vfs_read 函数 首先 检查 文件 读 写 锁 的 权限 。 如 果 文 件 不 支持 强制 锁 ， 这 个 检查 直接 通过 ， 
如 果 支 持 强制 锁 ， 就 要 按 前 一 节 的 描述 检查 锁 是 否 冲突 。 

如 果 文件 定义 了 read 函数 ， 调 用 文件 自身 的 读 函 数 ， 和 否则 的 话 ， 系 统 提供 了 一 个 函数 
do_sync_read 作为 读 函 数 。 文 件 系统 的 函数 是 如 何 注册 到 文件 的 f_op 指针 ? 这 是 文件 初始 化 
期 间 生成 inode 结构 时 赋予 的 。 数 据 文件 、 目 录 文 件 或 者 设备 文件 有 各 自 不 同 的 读 写 函数 ， 
这 在 第 2 章 已 经 分 析 过 ， 此 处 不 再 重复 。 

不 同文 件 系统 定义 了 不 同 的 读 写 函数 (很 多 也 是 相同 的 )。 为 了 便于 分 析 ， 我 们 选择 一 个 
广泛 使 用 的 文件 系统 一 一 ext2 文件 系统 作为 例子 ， 它 的 读 写 函数 具有 普遍 的 意义 。 


1. generic_file_read 函数 
ext2 文件 系统 的 读 函数 使 用 了 generic_file_read。 从 名 字 可 以 看 出 ， 这 个 函数 是 个 通用 函 
数 ， 实 际 上 很 多 文件 系统 都 使 用 了 这 个 函数 ， 如 代码 清单 10-6 所 示 。 


代码 清单 10-6 vfs_read 一 generic_file_read (filemap.c) 








ssize 上 
generic file_read(struct file *filp, char _ user *buf, size t count, loff_t *ppos) 
{ 

struct iovec local iov = { .iov base = buf, .iov len = count }; 


10.4 文件 读 过 程 代码 分 析 人 


struct kiocb kiocb; 
ssize t ret; 


init_sync_kiocb(&kiocb, filp); 
ret -= generic file aio read(skiocb, &local iov, 1, ppos); 
if (-EIOCBQUEUED == ret) 
ret = wait_on_sync_kiocb (&kiocb); 
return ret; 


} 





generic_file_read 函数 主要 解决 文件 同步 操作 和 异步 操作 的 问题 ， 这 是 通过 一 个 同步 控制 
结构 kiocb 实现 的 。 函 数 开始 调用 init_syne_kiocb 初始 化 一 个 同步 控制 块 kiocb， 然 后 将 读 
操作 异步 提交 ， 如 果 读 操作 返回 EIOCBQUEUED (说 明 读 操作 未 完成 ， 尚 在 队列 中 ， 需 要 
等 待 操作 完成 )， 进 程 置 为 睡眠 态 ， 等 待 kiocb 的 成 员 ki_users 变 为 0。kiocb 结构 的 定义 在 文 
件 \include\aio.h 中 ， 而 它 的 控制 逻辑 主要 在 内 核 的 异步 UO 实现 文件 aio.c 中 。 

前 面 的 章节 中 分 析 过 ， 真 正 的 异步 操作 是 很 难 实现 的 。 使 用 page cache 的 buffer IO 时 
因为 要 等 待 读 IO 完成 才能 返回 ， 这 个 过 程 有 可 能 阻塞 进程 ， 所 以 buffer IO 的 实现 过 程 本 身 
就 不 能 保证 异步 ， 等 buffer LO 读 过 程 返回 ， 实 际 上 已 经 完成 了 读 操 作 。 


2. _generic file_aio_read 函数 
generic_file_read 函数 最 后 调用 _generic_file_aio_read 执行 文件 读 ， 输 入 参数 iov 包含 用 
户 传人 的 用 户 态 地 址 和 和 希望 读 的 字 节 数 ， 如 代码 清单 10-7 所 示 。 


代码 清单 10-7 __generic_file_aio_read (flemap.c) 


ssize t _ generic file aio_read(struct kiocb *iocb, const struct iovec *iov, 
unsigned long nr_segs, loff_t *ppos) 


Di /* 省 略 部 分 代码 */ 
count = 0; 
/* 计算 希望 读 文件 的 字 节 数 */ 
for (seg = 0; seg < nr_segs; seg++) { 
const struct iovec *iv = &iov[seg]; 
/* 
* If any segment has a negative length, or the cumulative 
* length ever wraps negative then return -EINVAL. 
Wy 
count += iv->iov_len; 
if (unlikely((ssize t) (countliv->iov_len) < 0)) 
return -EINVAL; 
/* 检查 用 户 态 地 址 是 否 合法 “/ 
if (access_ok(VERIFY_WRITE，iv->iov_base，iv->iov_len)) 
continue; 
if (seg == 0) 
return -EFAULT; 
nr_segs = seg; 
count -= iv->iov len; /* This segment is no good */ 
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break; 
} 


_generic_file_aio_read 函数 第 一 部 分 计算 希望 读 文件 的 字 节 数 ， 校 验 用 户 态 地 址 是 否 合 
法 。 在 当前 场景 ， 已 经 限制 了 nr_segs 为 1， 所 以 iovec 只 有 一 个 向 量 。 参 数 count 得 到 了 和 希 
望 读 文件 的 字 节 数 ， 也 就 是 我 们 前 面 赋予 的 4096 字 节 +1000 字 节 +3096 字 节 。access_ok 是 
校 验 用 户 态 地 址 是 否 合法 ， 我 们 知道 在 32 位 计算 机 系统 中 ，Linux 用 户 态 的 地 址 空间 从 0 到 
3G 字 节 (通常 的 情况 )， 这 个 函数 经 常 在 内 核 用 到 。 

_ generic_file aio_read 函数 后 面部 分 是 对 direct IO 的 处 理 以 及 底层 调用 ， 如 下 所 示 。 


retval = 0; 
if (count) { 
for (seg = 0; seg < nr_segs; seg++) { 
read_descriptor_t desc; 
/* 赋值 读 描 述 符 */ 
desc.written ~ 0; 
desc.arg.buf = iov[seg] .iov_base; 
desc.count = iov[seg] .iov len; 
if (desc.count == 0) 
continue; 
desc.error = 0; 
do_generic file_read (filp, ppos, sdesc, file_read_actor); 
retval += desc.written; 
if (desc.error) 1 
retval = retval ?: desc.error; 
break; 





} 
out: 
return retval; 


} 

__generic_file_aio_read 函数 第 二 部 分 处 理 direct UO。direct IO 只 是 业务 逻辑 ， 和 buffer 
I/O 基本 流程 大 部 分 是 相同 的 ， 所 以 本 节 重 点 在 buffer TO， 略 过 direct IO。 

__8generic_file_aio_read 函数 第 三 部 分 使 用 了 读 描述 符 结构 desc。desc 的 written 成 员 代 表 
从 文件 中 读 到 的 字 节 数 ， 当 调用 do_generic_file_read 函数 返回 后 ，written 就 等 于 此 时 读 到 的 
字 节 数 ， 而 函数 指针 file_read_actor 用 来 将 数据 从 内 核 的 page cache 复制 到 用 户 提供 的 buf， 
也 就 是 iov_base 地 址 描述 的 内 存 。 


3. do_generic_file_read 函数 
do_generic_file_read 函数 是 内 核 提 供 的 通用 读 函 数 ， 如 代码 清单 10-8 所 示 。 
代码 清单 10-8 do_generic file_read (flemap.c) 


static inline void do generic file_read(struct file * filp, loff t *ppos, 
read descriptor t * desc, read actor t actor) 





{ 


10.4 文件 读 过 程 代码 分 析 。 


do generic mapping read(filp->f mapping, 


了 


sfilp->E_rav 
filp, 

Ppos, 

desc, 
actor); 





do_generic_file_read 函数 封装 了 do_generic_mapping_read。 输 入 参数 f mapping 封装 了 
块 设备 的 读 页 面 和 写 页 面 函 数 。 对 于 ext2 文件 系统 ， 它 在 文件 inode 初始 化 的 时 候 设置 了 读 
写 页 面 函数 结构 ext2_aops， 打 开 文 件 的 时 候 ， 设 置 文件 的 f_ mapping 等 于 inode 结构 提供 的 


结构 指针 。 


4. do_generic_mapping_read 函数 

函数 do_generic_mapping_read 要 计算 文件 读 操 作 涉 及 的 页 面 参 数 。 这 个 函数 非常 庞杂 ， 
因此 分 为 七 个 部 分 解释 。 

对 于 使 用 了 page cache 的 buffer IO， 文 件 的 操作 要 落地 到 对 page cache 的 操作 。 如 果 文 
件 的 内 容 已 经 在 page cache 里 面 ， 不 需要 读 ， 直 接 复制 内 存 就 可 以 ; 如 果 page cache 没有 文 
件 内 容 ， 则 需要 申请 page cache， 然 后 从 硬盘 读 文 件 内 容 到 page cache。 为 完成 对 page cache 
的 查找 ， 首 先 要 把 文件 读 的 字 节 数 计算 为 page cache 使 用 的 页 面 索引 值 ， 然 后 才 便 于 查找 。 
第 一 部 分 如 代码 清单 10-9 所 示 。 


代码 清单 10-9 do_generic_mapping_read (filemap.c) 





872 vold do_generic_mapping_read(struct address_space *mapping, 


873 
874 


struct file_ra_state *_ra, 
struct file *filp, 

loff_t *ppos, 
read_descriptor t *desc, 
read_actor_t actor) 


dp, /* 省 略 部 分 代码 */ 
4 计算 读 文件 的 第 一 个 页 面 */ 

index = *ppos >> PAGE_CACHE SHIFT; 

next_index = index7 

prev_index = ra.prev_page; 

last_index = (*ppos + desc->count + PAGE_CACHE SIZE-1) >> PAGE CACHE SHIFT; 
offset = *ppos 5 ~PAGE CACHE MASK; 


isize -~ i size read(inode); 
if (!isize) 
goto outs; 


end_index = (isize - 1) >> PAGE CACHE SHIFT; 
for (22) 1 
struct page *page; 


Ej 
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905 unsigned long nr, ret; 
906 

907 /* nr is the maximum number of bytes to copy from this page */ 
908 nr ~ PAGE CACHE SIZE; 

909 if (index >= end_index) { 

910 if (index > end_index) 

911 goto out; 

912 nr = ((isize - 1) 5 ~PAGE_CACHE MASK) + 1; 

913 if (nr <= offset) | 

914 goto out; 

915 } 

916 } 

917 nr = nr - offset; 

918 

919 cond_resched(); 

920 if (index == next_index) 

921 next_index = page_cache_readahead (mapping, &ra, filp, 

922 index, last_index - index); 





第 892 行 计算 读 文件 的 第 一 个 页 面 。 文 件 读 设 定 从 文件 位 置 4096 字 节 x 2+1000 字 节 开 
始 读 ， 计 算得 到 index 就 是 2。prev_index 又 是 什么 ? 它 得 到 文件 上 次 操作 读 到 的 最 后 一 个 
页 面 。last_index 计算 读 的 最 后 一 个 页 面 ， 得 到 结果 5。 第 892 行 和 895 行 是 内 核 常用 的 计算 
页 面 对 齐 的 方法 ， 第 892 行 是 向 下 对 齐 ， 而 895 行 则 是 向 上 对 齐 。 第 896 行 offset 计算 文件 
位 置 在 页 面 内 的 字 节 数 ， 计 算得 到 1000 字 节 。 第 902 行 则 是 计算 文件 的 最 后 一 个 页 面 索引 。 
前 面 设 定 文件 长 度 为 7x 4096 字 节 ，end_index 计算 得 到 6。 注 意 end_index 是 向 下 对 齐 的 。 

从 第 903 行 开 始 循环 遍历 所 有 的 页 面 ， 检 查 页 面 是 否 在 page cache 之 内 ， 如 果 是 则 从 
page cache 直接 复制 到 用 户 buf， 和 否则 需要 申请 页 面 ， 然 后 从 硬盘 读 人 页 面 数 据 ， 再 复制 到 用 
户 buf。 

首先 第 908 行 nr 设 为 4096， 这 是 一 个 页 面 内 最 大 可 读 的 字 节 数 。 第 909 ~ 916 行 则 是 
判断 是 否 已 经 读 到 文件 未 尾 的 情况 。 如 果 是 文件 最 后 一 个 页 面 ， 则 要 根据 文件 的 总 长 度 调整 
能 读 到 的 字 节 数 。 

第 917 行 计算 页 面 内 可 读 的 字 节 数 。 因 为 我 们 是 从 4096 x 2+1000 字 节 开始 读 ， 第 一 个 
页 面 能 读 的 字 节 就 是 3096 字 节 。 

第 920 行 ， 因 为 是 第 一 次 循环 ， 所 以 index 等 于 next_index， 调 用 page_cache_readahead 
进入 文件 预 读 。 传 人 的 参数 指明 是 从 第 二 个 页 面 开 始 读 ， 读 三 个 页 面 ， 读 完 后 ， 正 常情 况 
下 ,next_index 得 到 5。 

do_generic_mapping_read 函数 第 二 部 分 检查 page cache 是 否 存在 我 们 需要 的 页 面 。 


924 find_page: /* 在 page cache 中 查找 page*/ 


925 Page = find_ get_page (mapping, index); 
926 if (unlikely(page == NULL)) { 

927 handle ra miss(mapping, Sra, index); 
928 goto no_cached page; 


929 } 
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930 if (!PageUptodate (page)) 
931 goto page_not_up_to_date; 


第 924 行 的 find_page 用 来 在 page cache 里 面 搜索 页 面 。 结 果 可 以 分 为 三 种 情况 : 

口 页 面 存在 而 且 是 最 新 的 ， 只 需要 调用 传 进来 的 函数 指针 actor， 将 page cache 的 内 容 复 
制 到 用 户 buffer 即 可 。 

口 页 面 存 在 ,但 不 是 最 新 的 内 容 ， 进 入 page_not_up_to_date 分 支 读 这 个 页 面 ， 获 得 最 新 
的 内 容 。 页 面 更 新 后 ， 将 最 新 内 容 复制 到 用 户 buffer。 

口 页 面 根本 不 存在 ， 进 入 no_cached_page 分 支 申请 一 个 页 面 ， 然 后 再 去 读 这 个 页 面 ， 读 
完成 后 ， 将 最 新 内 容 复制 到 用 户 buffer。 

下 面 代码 是 对 page cache 内 不 同 页 面 状 态 的 处 理 。 


932 page_ok: 
es /* 省 略 部 分 注释 */ 

938 if (mapping_writably_mapped(mapping)) 

939 flush_dcache_page (page); 

940 

945 if (prev_index != index) 

946 mark_page_accessed (page); 

947 prev_index = index; 
st /* 省 略 部 分 注释 */ 

959 ret = actorldesc, page, offset, nr); 

960 offset += ret; 

961 index += offset >> PAGE CACHE SHIFT; 

962 offset &= ~PAGE CACHE MASK; 

963 

964 page_cache_release (page); 

965 if (ret -= nr 55 desc->count) 

966 continue; 

967 goto outs; 


do_generic_mapping_read 函数 第 三 部 分 处 理 页 面 状态 是 最 新 的 情况 。 

这 种 情况 说 明 page cache 中 有 要 读 的 文件 内 容 ， 调 用 actor 函数 将 数据 复制 到 用 户 态 缓冲 
区 。 第 965 行 判 断 是 否 已 经 完整 复制 了 要 读 的 数据 ， 如 果 复 制 结束 则 退出 ， 否 则 继续 处 理 下 
一 个 页 面 。 其 次 是 页 面 在 page cache 中 存在 ， 但 不 是 最 新 这 种 情况 的 处 理 。 

969 page_not_up_to_date: /* 页 存在 , 但 不 是 最 新 */ 


970 /* Get exclusive access to the page ... */ 

971 lock_page (page); 

972 

973 /* Did it get unhashed before we got the lock? */ 
974 if (!page->mapping) { 

975 unlock_page (page); 

976 page_cache_release (page); 

977 continue; 

978 } 

979 


980 /* Did somebody else fill it already? */ 
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981 
982 
983 
984 
985 


if (PageUptodate(page)) { 


unlock page (page); 
goto page_ok; 


do_generic_mapping_read 函数 第 四 部 分 处 理 页 面 在 page cache 中 ,但 是 数据 不 是 最 新 的 


情况 。 


此 时 要 调用 lock_page 锁 页 面 ， 这 个 函数 可 能 阻塞 进程 ， 因 为 可 能 有 别 的 进程 正在 读 写 
这 个 页 面 ， 等 其 他 进程 读 写 完毕 后 ， 进 程 被 唤醒 继续 执行 。 第 981 行 第 二 次 检查 页 面 是 否 更 
新 ， 因 为 锁 页 面 导 致 进程 阻塞 时 候 ， 可 能 其 他 进程 已 经 把 数据 读 人 页 面 了 。 如 果 页 面 状 态 未 
更 新 ， 继 续 执行 进入 readpage 分 支 。 其 次 处 理 页 面 中 数据 不 存在 或 者 虽然 存在 但 不 是 最 新 ， 
因此 需要 读 页 面 的 情况 。 


986 readpage: 


987 
988 
989 
990 
991 
992 
993 
994 
995 
996 
997 
998 
999 
1000 
1001 
1002 
1003 
1004 
1005 
1006 
1007 
1008 
1009 
1010 
1011 
1012 


/* Start the actual read. The read will unlock the page. 
error = mapping->a_ops->readpage (filp, page); 


if (unlikely(error)) { 


if (error == AOP_TRUNCATED_PAGE) { 
page_cache_release (page); 
goto find_page; 

} 

goto readpage_error; 


if (!PageUptodate (page)) 1 


lock_page (page); 
if (!PageUptodate (Page)) { 
if (page->mapping -~ NULL) { 
/* 
* invalidate inode pages got 让 
be 
unlock_page (page); 
page_cache_release (page); 
goto find_page; 
} 
unlock_ page (page); 
error = -EIO; 
shrink_readahead size eio(filp, &ra); 
goto readpage error; 
} 
unlock_page (page) 7 





/* 省 略 部 分 代码 */ 

isize = i_size read(inode); 

end_index = (isize - 1) >> PAGE CACHE SHIFT; 

if (unlikely(!isize || index > end_index)) { 
page_cache_release (page); 


二 过 
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goto out; 


和 /+* 省 略 部 分 代码 */ 
readpage_error: 

/* UHHUH! A synchronous read error occurred. Report it */ 
desc->error = error; 

page_cache_release (page); 

goto outs 


do_generic_mapping_read 函数 第 五 部 分 处 理 读 页 面 操作 。 

此 时 调用 文件 系统 提供 的 readpage 函数 真正 从 硬盘 读 人 一 个 页 面 的 数据 ， 因 为 readpage 
函数 只 是 将 读 命令 发 送 到 硬盘 ， 真 正 的 读 到 数据 必须 等 中 断 返 回 ， 所 以 第 999 行 青 次 锁 页 面 
会 导致 进程 睡眠 (如 果 页 面 数据 不 是 最 新 )， 直 到 中 断 返回 ， 在 中 断 处 理 函数 中 将 页 面 状 态 改 
为 最 新 并 唤醒 进程 ， 此 时 页 面 状态 已 经 是 最 新 ， 从 第 1025 ~ 1041 行 和 第 908 ~ 917 行 的 处 
理 一 样 ， 设 置 参 数值 后 进入 page_ok 分 支 开始 复制 数据 。 

上 述 情况 有 一 个 例外 ， 如 果 中 断 返回 后 ， 页 面 状态 仍 不 是 最 新 ， 说 明 发 生 了 错误 ， 进入 
readpage_error 分 支 释放 页 面 后 返回 。 第 1001 行 检查 page 的 mapping 成 员 是 否 为 空 ， 如 果 为 
空 ， 说 明 发 生 了 invalidate_inode_pages 事件 ， 这 种 情况 返回 find_page 分 支 继 续 处 理 。 


1050 no_cached_page: 


1055 
1056 
1057 
1058 
1059 
1060 
1061 
1062 
1063 


1070 
1071 
1072 
1073 


if (!cached page) 1 
cached page = page_cache alloc_cold(mapping); 
if (!cached page) { 

desc->error = -ENOMEM; 
goto out; 
} 

} 

error = add_to_page_cache_lrul(cached page, mapping 

index, GFP_KERNEL); 

省 略 部 分 代码 */ 

Page -~ cached page; 

cached_page = NULL; 

goto readpage; 

} 


do_generic_mapping_read 函数 第 六 部 分 申请 一 个 页 面 ， 然 后 将 页 面 插 入 page cache。 如 
果 成 功 ， 则 进入 readpage 分 支 开始 从 硬盘 读 人 数据 。 


1075 out: 
1076 * ra ra; 

1077 

1078 *ppos = ((loff t) index << PAGE CACHE SHIFT) + offset; 
1079 if (cached page) 

1080 page_cache_release (cached page); 

1081 if (filp) 

1082 file_accessed (filp) ; 


do_generic_mapping_read 函数 第 七 部 分 更 新 文件 的 位 置 ， 修 改 文 件 的 预 读 状态 。 
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从 硬盘 读数 据 是 通过 文件 系统 提供 的 readpage 函数 实现 的 。 而 ext2 文件 系统 提供 的 读 页 
面 函 数 就 是 ext2_readpage， 如 代码 清单 10-10 所 示 。 


代码 清单 10-10 ext2_readpage (inode.c) 


static int ext2_readpage(struct file *file，struct page *page) 
{ 

return mpage_readpage (page, ext2 get block); 
】 
int mpage_readpage (struct page *page，get_block_t get_block) 
{ 

struct bio *bio = NULL; 

sector_t last block_in bio = 0; 

struct buffer_head map_bh; 

unsigned long first_logical_block = 0; 

/* 清除 map_bh 的 映射 标志 */ 

clear buffer mapped (smap_bh); 

bio = do_mpage_readpage (bio, page, 1, élast_block_in_bio, 

Smap_bh, sfirst logical block, get_block); 
/* 如 果 bio 有 效 ， 则 发 送 一 个 读 请 求 Dio*/ 
if (bio) 
mpage_bio_submit (READ, bio); 
return 0; 


】 








ext2_readpage 函数 没 执行 任何 动作 ， 直 接 调 用 了 mpage_readpage。 后 者 是 内 核 提供 的 一 
个 通用 函数 ， 它 调用 do_mpage_readpage 将 读 请 求 转换 为 一 个 bio 结构 ， 如 果 bio 有 效 ， 则 
提交 bio 给 底层 去 执行 读 操作 。 
文件 系统 的 读 写 请 求 ， 最 终 要 转换 成 对 块 设备 的 读 写 请 求 。 这 涉及 几 个 问题 。 
口 文件 对 用 户 呈现 了 一 个 连续 的 读 写 接口 ， 但 是 文件 在 真正 物理 设备 硬盘 上 的 存储 可 能 
并 不 是 连续 的 ， 如 果 是 不 连续 的 ， 对 文件 的 读 写 就 不 能 用 同一 个 IO 完成 ， 而 是 需要 
拆 分 。 
口 硬盘 的 读 写 最 小 单元 是 房 区 ， 通 常 一 个 扇 区 是 512 字 节 ， 而 文件 的 最 小 单元 是 块 ， 一 
个 块 可 以 由 多 个 扇 区 组 成 。 组 成 块 的 扇 区 物理 地 址 必须 连续 ， 而 块 之 间 可 以 不 连续 。 
口内 核 通过 submit_bio 来 提交 一 个 IO 给 底层 。 同 时 内 核 又 提供 了 一 个 函数 submit_bh 
来 提交 块 。submit_bh 最 终 也 是 通过 submit_bio 来 实现 ， 它 只 是 多 了 将 块 地 址 转换 为 硬 
盘 物理 扇 区 地 址 的 过 程 。 


5. do_mpage_readpage 函数 

do_mpage_readpage 函数 必须 对 上 面 的 问题 做 出 处 理 ， 对 一 个 页 面包 含 的 块 进行 检查 ， 
判断 读 文件 的 请 求 是 否 通过 一 个 bio 即 可 提交 ， 还 是 需要 拆 分 为 多 个 bh， 如 代码 清单 10-11 
所 示 。 


10.4 文件 读 过 程 代码 分 析 。 


代码 清单 10-11 do_mpage_readpage 函数 





175 static struct bio * 
176 do_mpage_readpage(struct bio *bio, struct page *page, unsigned nr_pages, 


177 
178 
179 


196 
197 
198 
199 
200 
201 


202 
203 
204 


sector_t “last block in bio, struct buffer_ head *map_bh, 
unsigned long *first logical block, get_block t get_block) 
{ 
省略 部 分 代码 */ 
if (page has_buffers (page)) 
goto confused; 





block_in file = (sector t)page->index << (PAGE CACHE_SHIFT - blkbits); 
last_block = block in file + nr_pages * blocks_per_pages; 
last_block_in file = (i_size_read(inode) + blocksize - 1) >> blkbits; 
/* 如 果 最 后 一 个 块 超过 文件 长 度 ， 则 以 文件 长 度 为 准 */ 
if (last block > last_block_in file) 

last_block = last_block_in_file; 
page_block = 0; 





do_mpage_readpage 函数 第 一 部 分 首先 判断 当前 页 面 是 否 已 经 创建 了 块 缓存 。 

page_has_buffers 通过 检查 page 结构 是 否 设置 PG_private 标志 位 ， 如 果 设 置 了 这 个 标志 
位 ， 说 明 该 页 面 已 经 创建 了 管理 块 缓存 的 buffer head 结构 。 有 的 块 缓存 可 能 已 经 有 了 最 新 数 
据 ， 有 的 块 缓存 可 能 还 没有 数据 ， 这 种 情况 转 入 confused 分 支 ， 逐 个 检查 每 个 块 的 具体 情 
况 。 如 果 没 有 设置 PG_private 标志 位 ， 则 要 获得 每 个 块 的 块 号 。 

第 199 行 计算 第 一 个 块 在 文件 中 的 块 号 ， 第 200 行 计算 最 后 一 个 块 的 块 号 ， 如 果 最 后 一 
个 块 超过 文件 长 度 ， 则 以 文件 长 度 为 准 。 


207 
208 
209 
210 
211 
212 
213 
214 
215 
216 
217 
218 
219 
220 
221 
222 
223 
224 
225 
226 


J» 
* Map blocks using the result from the previous get blocks call first. 
*/ 

nblocks ~ map_bh->b_size >> blkbits; 
if (buffer_mapped (map_bh) 55 block in file > *first_logical block 855 

block_in_file < (*first_logical block + nblocks)) { 
unsigned map_offset ~ block in file - *first_logical block; 
unsigned last = nblocks - map_offset; 


for (relative block = 0; ; relative block++) { 

if (relative block == last) { 
clear_buffer_mapped (map_bh); 
break; 

上 

if (page_block 
break; 

blocks [page_block] = map_bh->b_blocknr + map_offset + 

relative_block; 
Page_block+t+; 
block_in_filet+; 





blocks_per_page) 
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227 bdev = map_bh->b_bdev; 

228 1} 

do_mpage_readpage 函数 第 二 部 分 处 理 页 面 已 经 映射 过 的 情况 - 

函数 第 一 部 分 计算 的 块 号 是 文件 内 的 逻辑 块 号 ， 而 要 从 硬盘 读数 据 ， 必 须根 据 逻 辑 块 
号 获得 硬盘 的 物理 块 号 ， 这 个 过 程 就 是 映射 。 函 数 指针 get_block 就 是 文件 系统 提供 的 映射 
函数 。 

局 部 变量 blocks 是 个 数组 ， 当 前 页 面 中 每 一 个 块 的 物理 块 号 都 保存 在 这 个 数组 中 。 如 果 
当前 页 面 已 经 映射 过 ， 循 环 把 文件 块 的 物理 块 号 写 人 blocks 数组 ， 直 到 页 面 内 的 所 有 块 都 被 
处 理 完 毕 。 

do_mpage_readpage 函数 随后 部 分 检查 每 个 文件 块 的 状态 ， 代 码 如 下 : 

231 / ， Then do more get_blocks calls until we are done with this page. 

232 4/ 

233 map_bh->b_page - page; 


/* 循环 处 理 要 读 的 所 有 块 */ 
234 while (page block < blocks per page) { 


235 map_bh->b_state = 0; 
236 map_bh->b_size = 0; 
237 
238 if (block_in file < last_block) { 
239 map_bh->b_size ~ (last_block-block in file) << blkbits; 
/*get_block 是 文件 系统 提供 ,用 来 获得 文件 块 的 物理 块 号 */ 
240 if (get block(inode, block in file, map bh, 0)) 
241 goto confused; 
242 “first_logical_block = block_in_file; 
243 上 
244 /* 未 被 映射 。 有 可 能 是 文件 中 的 润 */ 
245 if (!buffer mapped (map_bh)) { 
246 fully_mapped = 0; 
247 if (first_hole -= blocks_per_page) 
248 first_hole = page_block; 
249 page_block++; 
250 block_ in filet+; 
251 clear_buffer_mapped (map_bh); 
252 continuey 
253 } 
/* 如 果 这 个 块 的 内 容 已 经 被 缓存 而 且 是 最 新 的 */ 
261 if (buffer uptodate (map_bh)) { 
262 map_buffer_to_page (page, map_bh, page_block); 
263 goto confused; 
264 } 
265 /* 处 理 文件 的 洞 */ 
266 if (first_hole != blocks_per_page) 
267 goto confused; /* hole -> non-hole */ 
268 
269 /* Contiguous blocks? */ 
270 if (page block && blocks[page block-1] != map_bh->b_blocknr-1) 


271 goto confused; 
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272 nblocks = map bh->b_size >> blkbits; 
/* 如 果 从 文件 系统 一 次 get_block 了 多 个 块 ， 则 循环 处 理 */ 

273 for (relative block ~ 0; ; relative block++) { 

274 if (relative block == nblocks) { 

275 clear_ buffer mapped (map_bh); 

276 break; 

277 } else if (page block == blocks_per page) 

278 break; 

279 blocks [page_block] = map_ bh->b blocknr+relative_block; 

280 page blockt+; 

281 block_in filet+; 

282 } 

283 bdev = map_bh->b_bdev; 

284 |} 


do_mpage_readpage 函数 第 三 部 分 循环 遍历 每 一 个 文件 块 ， 调 用 get_block 获得 它 的 物理 
块 号 。 

第 245 行 检查 文件 块 如 果 未 被 映射 ， 说 明 可 能 是 文件 中 的 空洞 ， 则 处 理 下 一 个 块 。 

第 261 行 检查 map_bh 中 的 内 容 已 经 是 最 新 的 ， 说 明 当 前 块 最 新 的 数据 已 经 在 page 
cache， 即 使 文件 块 的 物理 地 址 连续 ， 也 需要 拆 分 UO (避免 重复 读 硬 盘 )， 因 此 转 入 confused 
分 支 。 

第 270 行 检查 文件 块 的 物理 块 号 和 map_bh 的 物理 块 号 不 连续 ， 说 明 不 是 顺序 JO， 需 要 
跳 转 confuse 分 支 。 

因为 一 次 调用 get_block 可 以 获得 多 个 文件 块 的 物理 块 号 ， 所 以 从 第 272 ~ 282 行 逐个 
将 映射 获得 的 文件 块 写 人 blocks 数组 ， 写 人 blocks 数组 的 数目 不 超过 一 个 页 面容 纳 的 文件 块 
数 。 变 量 nblocks 保存 了 映射 获得 的 文件 块 数目 。 

do_mpage_readpage 也 数 随后 部 分 检查 1/O 能 否 合并 的 情况 ， 代 码 如 下 : 

301 /* 

302 * This page will go to BIO。 Do we need to send this BIO off first? 

303 +*/ 

/* 上 一 个 bio 的 最 后 块 和 当前 TI/O 的 不 连续 ， 则 先 发 送 上 一 个 bio*/ 


304 if (bio 5656 (*last_block_in_bio !~ blocks[0] - 1)) 
305 bio = mpage_bio_submit (READ, bio); 


do_mpage_readpage 函数 的 传人 参数 有 一 个 bio 指针 和 bio 中 最 后 一 个 块 的 物理 块 号 。 如 
果 最 后 一 个 块 的 物理 块 号 和 blocks 数组 的 物理 块 号 连续 ， 说 明 传人 的 bio 可 以 和 当前 IO 合 
并 ， 和 否则 就 必须 立即 把 传人 的 bio 进行 提交 ， 交 给 底层 处 理 。 

do_mpage_readpage 函数 第 四 部 分 用 于 处 理 IO 合并 ， 如 果 前 一 个 bio 和 当前 1/O 要 读 的 
物理 块 号 连续 ， 两 个 UO 可 以 进行 合并 。 随 后 部 分 处 理 1/O 不 能 合并 ， 因 此 需要 申请 新 bio 
结构 的 情况 。 

do_mpage_readpage 函数 第 五 部 分 申请 一 个 新 的 bio 结构 。 代 码 如 下 : 


307 alloc_ new: 
308 if (bio == NULL) { 
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309 bio = mpage alloc(bdev, blocks[0] << (blkbits - 9), 
310 min t(int, nr pages, bio get_nr_vecs(bdev)), 
311 GFP_KERNEL) 7 

312 if (bio == NULL) 

313 goto confused; 

314 1 

315 


316 length ~ first_hole << blkbits; 
317 if (bio_add page(bio, page, length, 0) < length) { 


318 bio = mpage_bio_submit (READ, bio); 

319 goto alloc_new; 

320 } 

321 

322 if (buffer boundary(map bh) || (first_hole != blocks_per_page)) 
323 bio = mpage_bio_submit (READ, bio); 

324 else 

325 *last_block in bio ~ blocks[blocks per page - 1]; 

326 out: 


327 return bio; 


这 个 bio 的 起 始 扇 区 地 址 根据 blocks 数组 第 一 个 块 的 物理 块 号 计算 得 出 。 如 果 存 在 文 
件 空 洞 或 者 map_bh 有 边界 标志 ， 说 明 这 个 bio 不 能 和 随后 的 IO 合并 ， 则 调用 mpage_ 
bio_submit 立即 提交 IO。 和 否则 ,返回 最 后 一 个 块 的 物理 块 号 和 bio 地 址 ， 由 系统 判断 何 时 
提交 bio。 

do_mpage_readpage 函数 随后 检查 是 否 递交 bio 结构 给 下 层 ， 代 码 如 下 : 

confused: 

if (bio) 
bio ~ mpage_bio_submit (READ, bio); 
if (!PageUptodate (page)) 
block_read full page (page, get_ block); 
else 
unlock_page (page); 
goto outs; 
} 


do_mpage_readpage 函数 第 六 部 分 是 confused 分 支 代码 。 

如 果 页 面 状 态 是 PG_uptodate， 说 明 page cache 的 当前 页 面 已 经 全 部 是 最 新 数据 ， 不 需要 
从 硬盘 读数 据 ， 直 接 返 回 ， 否 则 就 要 调用 block_read_full_page 函数 逐个 遍历 页 面 内 的 每 一 个 
文件 块 ， 检 查 数据 是 否 最 新 。 


6. block_read_full_page 函数 
block_read_full_page 函数 与 do_mpage_readpage 前 面部 分 的 流程 类 似 ， 所 以 只 分 析 最 后 
部 分 ， 如 代码 清单 10-12 所 示 。 


代码 清单 10-12 block_read_full_page 





int block read full page(struct page *page, get block t *get block) 
{ 
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“en/* 省 略 部 分 代码 */ 
/* 
* Stage 3: start the I0. Check for uptodateness 
* inside the buffer lock in case another process reading 
* the underlying blockdev brought it uptodate (the sct fix). 
*/ 
for (i = 0; i < nr; i++) { 
bh = arr[i]; 
if (buffer uptodate(bh)) 
end_buffer async_read(bh, 1); 
else 
submit_bh (READ, bh); 
} 
return 07 
} 





局 部 变量 arr 是 个 数组 ， 保 存 了 页 面 内 的 每 一 个 文件 块 的 物理 块 号 。 如 果 文 件 块 号 的 状 


态 为 BH_Uptodate， 说 明 块 的 数据 已 经 是 最 新 ， 不 需要 从 硬盘 读数 据 ， 否 则 调用 submit_bh 
把 块 提交 给 底层 。 


10.5 读 过 程 返回 


文件 系统 通过 mpage_bio_submit 提交 一 个 ULO。 这 个 UO 什么 时 候 返回 ?返回 通过 什么 


机 制 通知 上 层 ? 这 涉及 内 核 /O 过 程 的 阻塞 点 设计 。 


本 章 开 始 部 分 分 析 了 同步 /O 和 异步 /O，Linux 的 同步 IO 调用 了 文件 系统 提供 的 read 


函数 ， 这 个 read 函数 最 终 要 调用 do_generic_mapping_read 把 文件 内 容 按照 页 面 读 和 人 page 
cache。 这 个 过 程 实际 上 是 阻塞 的 ， 读 页 面 的 过 程 中 两 次 调用 了 lock_page 函数 ， 而 这 个 函 
数 使 用 了 wait_on_bit_lock 可 能 让 进程 进入 睡眠 状态 。 如 果 进 程 进入 睡眠 状态 ， 谁 来 唤醒 
它 ? 这 就 要 靠 mpage_bio_submit 注册 的 回调 函数 了 。 


在 这 里 需要 进一步 探讨 异步 VO 的 实现 。 从 前 面 过 程 分 析 可 以 知道 ，buffer IO 不 能 实现 


异步 /O， 要 避免 进程 阻塞 ， 实现 异步 UO 必须 使 用 direct UO。 即 使 这 样 ， 异 步 1O 中 仍然 使 
用 了 自 旋 锁 和 信号 量 ， 进 程 仍然 可 能 在 某 些 地 方 被 阻塞 。 


函数 mpage_bio_submit 提交 bio 的 时 候 ， 要 注册 回调 函数 ， 以 供 中 断 处 理 函 数 中 调用 ， 


如 代码 清单 10-13 所 示 。 


代码 清单 10-13 mpage_bio_submit (mpage.c) 





static struct bio *mpage bio_submit (int rw, struct bio *bio) 
{ 
bio->bi_end io ~ mpage_end io_read; 
if (rw == WRITE) 
bio->bi_end_io ~ mpage_end io write; 
submit_biolrw, bio); 
return NULL; 
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mpage_bio_submit 函数 提供 了 回调 函数 mpage_end_io_read。 这 个 函数 是 在 IO 完成 后 的 
中 断 过 程 中 调用 的 。1/O 中 断 在 第 11 章 分 析 ， 本 章 重点 关注 这 个 回调 函数 的 实现 ， 如 代码 清 
单 10-14 所 示 。 
代码 清单 10-14 mpage_end_io_read (mpage.c) 


static int mpage_end_io_read(struct bio *bio, unsigned int bytes_done, int err) 
{ /* 测试 数据 是 否 更 新 */ 

const int uptodate = test_bit (BIO UPTODATE, &bio->bi flags); 

struct bio vec *bvec = bio->bi io vec + bio->bi vent - 1; 





if (bio->bi size) 
return 1; 


struct page *page = bvec->bv_page; 


if (--bvec >= bio->bi_io_vec) 
prefetchw (ébvec->bv_page->flags); 


if (uptodate) { 
/* 读 成 功 ， 设 置 page 为 update*/ 
SetPageUptodate (page) ; 

} else { 
ClearPageUptodate (Page) 
SetPageError (Page) 7 


} 
/* 解锁 page ， 唤醒 被 阻塞 的 读 page 进程 */ 
unlock_page (page); 
} while (bvec >= bio->bi_io_vec); 
bio_put (bio); 
return 0; 
} 





函数 mpage_end_io_read 要 遍历 bio 结构 的 每 个 向 量 ， 看 相关 页 面 是 否 获得 最 新 的 数据 。 
如 果 成 功 ， 则 设置 页 面 状态 为 最 新 ， 同 时 解锁 页 面 。 这 个 解锁 动作 会 唤醒 等 待 该 页 面 更 新 的 
进程 ， 从 之 前 阻塞 点 继续 往 下 执行 ， 如 果 数 据 未 更 新 ， 则 设置 页 面 出 错 ， 然 后 解锁 页 面 ， 唤 
醒 等 待 页 面 更 新 的 进程 。 回 顾 一 下 读 页 面 的 代码 ， 此 时 进程 被 唤醒 后 ， 会 检查 页 面 状态 是 否 
为 最 新 ， 如 果 不 为 最 新 ,将 设置 readpage_error 错误 返回 。 


10.6 文件 写 过 程 代码 分 析 

文件 写 的 系统 调用 是 write。 在 内 核 中 ， 文 件 的 写 过 程 是 从 sys_write 函数 开始 ， 这 个 函 
数 以 及 它 调用 的 vfs_write 和 文件 的 读 过 程 非常 类 似 ， 就 不 再 歼 述 。 本 节 从 文件 系统 提供 的 
write 函数 开始 分 析 。 
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1. generic_file_write 函数 
ext2 文件 系统 提供 的 write 函数 是 generic_file_write， 这 个 函数 也 是 个 通用 函数 ， 被 很 多 


文件 系统 所 使 用 ， 如 代码 清单 10-15 所 示 。 
代码 清单 10-15 generic_file_write (filemap.c) 





ssize t generic_file_write(struct file *fle，const char _ user *buf, 
size_t count, loff t *ppos) 
{ 
struct address_space *mapping = file->f mapping; 
struct inode *inode ~ mapping->host; 
ssize t ret; 
struct iovec local iov = { .iov base = (void _user *)buf, 
,iov_len = count }; 


mutex_lock (sinode->i_mutex); 
ret = _ generic file write_nolock(file, 5local_iov, 1, ppos); 
mutex_unlock (&inode->i_mutex); 
/* 如 果 文件 有 SYNC 标志 ， 或 者 inode 有 SYNC 标志 */ 
if (ret > 0 66 ((file->f flags & 0_SYNC) 11 IS_SYNC(inode))) { 
ssize_t err; 
err = sync_page_range(inode, mapping, *ppos - ret, ret); 





buffer IO 的 读 写 对 象 是 page cache， 文 件 写 只 把 数据 写 到 page cache 就 返回 。 但 是 某 些 
时 候 ， 用 户 希 望 真正 写 到 硬盘 ， 文 件 就 需要 设置 SYNC 标志 。 设 置 SYNC 标志 后 ， 系 统 将 调 
用 sync_page_range 把 page cache 的 页 面 写 和 硬盘， 这 部 分 在 第 12 章 中 分 析 ， 此 处 略 过 。 


2. generic_file_buffered_write 函数 

__generic_file_write_nolock 类 似 文件 的 读 函 数 ， 它 调用 _generic_file_aio_write_nolock， 
这 个 函数 和 读 函数 _ generic_file_aio_read 也 很 类 似 ， 所 以 此 处 略 过 。 

_generic_file_aio_write_nolock 调用 了 generic_file_buffered_write 函数 执行 写 操作 ， 我 们 
从 这 里 开始 分 析 。generic_file_buffered_write 函数 的 代码 如 代码 清单 10-16 所 示 。 


代码 清单 10-16 generic_file_buffered_write (filemap.c) 





ssize t 
generic file buffered write(struct kiocb *iocb, const struct iovec *iov, 
unsigned long nr_segs, loff t pos, loff t *ppos, 
size t count, ssize t written) 


struct file *file = iocb->ki_filp; 
struct address_space * mapping = file->f mapping; 
/*mapping 的 a_ops 结构 是 初始 化 inode 的 时 候 由 文件 系统 提供 */ 


const struct address_space_operations *a ops = mapping->a_ops; 


struct inode  *inode = mapping->host; 
long status = 0; 
struct page *page; 


struct page *cached page = NULL; 
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size t bytes; 

struct pagevec lru pvec; 

const struct iovec *cur iov = iov; /* current iovec */ 

size_t iov_base = 0; /* offset in the current iovec */ 
char _ user *buf; 


pagevec init (slru pvec, 0); 


if (likely(nr_segs -= 1)) 
buf = iov->iov base + written; 

else { 
filemap_set_next_iovec (scur_iov, &iov base, written); 
buf = cur_iov->iov_base + iov_base; 


generic_file_buffered_write 函数 第 一 部 分 设置 必要 的 参数 。 

文件 的 f_mapping 成 员 是 一 个 指向 address_space 结构 的 指针 ， 而 address_space 结构 包含 
了 文件 的 读 写 操作 函数 。 

输入 参数 nr_segs 是 段 的 数目 。 每 个 段 代 表 独 立 的 一 段 内 存 ， 文 件 读 写 时 ， 可 以 指定 多 
个 段 ， 由 内 核 一 次 性 处 理 。 当 前 场景 具有 一 个 段 ，buf 参数 指向 保存 写 和 数据 的 用 户 态 内 存 


的 地 址 。 
generic_file_buffered_write 函数 随后 部 分 检查 需要 写 和 的 每 个 页 面 的 状态 ， 代 码 如 下 : 


do 
unsigned long index; 
unsigned long offset; 
size_t copied; 
offset = (pos & (PAGE CACHE SIZE -1)); /* Within page */ 
index = pos >> PAGE_CACHE_SHIFT; 
bytes ~ PAGE CACHE SIZE - offset; 


/* Limit the size of the copy to the caller's write size */ 
bytes = min(bytes, count); 
bytes = min(bytes, cur_iov->iov_len - iov_base); 


fault_in_pages_readable (buf, bytes); 
/* 从 page cache 申请 一 个 页 面 */ 
page = _ grab_cache_page (mapping, index, scached_page, slru_pvec); 
/省略 部 分 代码 */ 
/* 如 果 要 写 入 的 字 节 为 0， 跳 转 zero_length_segment*/ 
if (unlikely(bytes == 0)) { 
status = 0; 
copied = 0; 
goto zero_length_ segment; 


status = a_ops->prepare write (file, page, offset, offset+bytes); 


/* 省 咯 部 分 代码 */ 
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/* 复 制 用 户 内 存 到 page cache 的 页 面 */ 
if (likely(nr_segs == 1)) 

copied = filemap copy from user(page, offset, buf, bytes); 
else 

copied = filemap copy from user iovec(page, offset, 

cur iov, iov base, bytes); 
flush_dcache_page (page); 
status = a_ops->commit write(file, page, offset, offset+bytes); 
if (status == AOP_TRUNCATED PAGE) | 
/* 如 果 这 个 页 面 无 效 了 ， 需 要 重 来 一 次 */ 
page_cache_release (page); 
continue; 
¥ 


generic_file_buffered_write 函数 第 二 部 分 循环 遍历 要 写 人 数据 的 每 一 个 页 面 。 

变量 offset 是 当前 页 面 内 的 偏 移 值 ，bytes 是 要 写 入 的 字 节 数 ，index 计算 当前 页 面 的 索 
引 值 。 以 页 面 索引 值 为 参数 ， 向 page cache 申请 页 面 ， 如 果 页 面 存 在 ， 则 锁定 页 面 ， 禁 止 其 
他 任务 再 使 用 文件 的 这 个 页 面 。 如 果 页 面 不 存在 ， 需 要 创建 一 个 页 面 ， 加 入 page cache， 然 
后 锁定 页 面 。 

锁定 当前 页 面 后 ， 首 先 调用 文件 系统 的 prepare_write 函数 检查 当前 页 内 的 每 个 文件 块 ， 
然后 将 数据 从 用 户 状态 缓存 复制 到 page cache， 最 后 调用 文件 系统 的 commit_write 再 次 检查 
当前 页 的 每 个 文件 块 并 修改 块 和 页 面 的 状态 。 

返回 值 AOP_TRUNCATED _PAGE 代表 所 操作 的 page cache 页 面 无 效 ， 这 种 情况 文件 位 
置 和 页 面 索引 都 不 改变 ， 重 新 尝试 申请 page cache 页 面 ， 重 复 上 述 写 人 的 过 程 。 

generic_file_buffered_write 函数 随后 部 分 检查 需要 写 和 的 字 节 数 ， 代 码 如 下 : 


zero_length_segment: 
if (likely(copied >= 0)) { 
/* 根据 复制 的 字 节 数目 ， 计 算 剩余 的 字 节 数 和 当前 位 置 */ 
if (!status) 
status = copied; 


if (status >= 0) [ 
written += status; 
count -= status; 
pos += status; 
buf += statusi 
if (unlikely(nr segs > 1)) { 
filemap_ set next iovec(&cur iov, &iov base, status); 
if (count) 
buf = cur_iov->iov_ base + iov base; 
} else 1 
iov base += status; 
] 
} 
} 
if (unlikely(copied != bytes)) 
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if (status >= 0) 
status = -EFAULT; 
unlock_page (page); 
mark_page_accessed (page); 
page_cache release (page); 
if (status < 0) 
break; 
/* 检查 是 否 需 要 真正 写 硬盘 */ 
balance_dirty pages_ratelimited (mapping); 
cond_resched(); 
} while (count)7 


generic_file_buffered_write 函数 第 三 部 分 是 zero_length_segment 分 支 ， 也 是 当前 页 写 人 
完成 ， 进 入 下 一 个 页 面 之 前 的 参数 调整 部 分 。 

如 果 当 前 页 面 已 经 成 功 写 入 page cache， 文 件 位 置 pos， 用 户 态 内 存 都 要 加 上 已 经 完成 的 
字 节 数 ， 而 需要 写 人 的 字 节 数 count 则 减 去 已 经 完成 的 字 节 。 

balance_dirty_pages_ratelimited 函数 的 作用 是 检查 是 否 触发 了 内 核 的 回 写 策略 ， 是 否 需 
要 将 写 人 page cache 的 数据 真正 写 人 硬盘 ， 这 个 函数 将 在 第 12 章 进行 分 析 。 

generic_file_buffered_write 函数 随后 检查 文件 的 特殊 标志 ， 代 码 如 下 : 

*ppos. ~ posi 


if (cached_page) 
Page_cache_release (cached page); 


if (likely(status >= 0)) { 
if (unlikely((file->f flags & O_SYNC) 11 IS_SYNC(inode))) { 
if (!a_ops->writepage || !is_sync_kiocb(iocb)) 
status ~ generic osync inode (inode, mapping, 
OSYNC_METADATAIOSYNC_DATA); 
} 
} 
ef* 省略 direct I/0 的 代码 */ 
pagevec_lru_add(slru_pvec); 
return written ? written : status; 
} 
generic_file_buffered_write 函数 第 四 部 分 检查 文件 是 否 具有 SYNC 标志 。 通 常 文件 数据 
写 到 page cache 就 结束 了 ， 何 时 从 page cache 真正 写 入 硬盘 由 内 核 的 回 写 机 制 控制 。 但 是 如 
果 文 件 具 有 SYNC 标志 或 者 文件 系统 mount 时 候 设置 了 MS_SYNCHRONOUS 标志 ， 立 即将 
修改 的 内 容 同步 到 硬盘 并 等 待 写 人 数据 完成 。 
最 后 ，generic_file_buffered_write 函数 返回 最 终 写 人 page cache 的 总 字 节 数 。 


3. 获得 文件 块 的 物理 块 号 

通过 文件 写 数据 到 硬盘 ， 必 须 获得 文件 块 的 物理 块 号 ， 才 能 真正 执行 数据 写 人 硬盘 。 这 是 
文件 系统 提供 的 prepare_write 函数 和 commmit_write 函数 的 功能 。 对 ext2 文件 系统 而 言 ， 它 提 
供 的 prepare_write 函数 是 ext2_prepare_write，commit_ write 函数 是 generic_commit_ write。 
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ext2_prepare_write 是 个 封装 函数 ， 它 真正 调用 的 是 _block_prepare_write 函数 。 该 函数 
要 逐个 获得 页 面 内 文件 块 的 物理 块 号 并 检查 它 的 状态 是 否 最 新 ， 如 代码 清单 10-17 所 示 。 


代码 清单 10-17 __block_prepare_write (bufferc) 





static int _ block prepare write(struct inode *inode, struct page *page, 


unsigned from, unsigned to, get block t *get_block) 
{ 


/+ 省 略 部 分 代码 */ 
blocksize = 1 << inode->i blkbits; 
/* 为 页 面 创建 块 缓存 */ 
if (!page_has_buffers (page)) 
create_empty_buffers (page, blocksize, 0); 
head = page_buffers (page); 


bbits ~ inode->i_blkbitsy 
/* 计算 页 面 内 第 一 个 块 在 文件 内 的 块 号 */ 
block ~ (sector t)page->index << (PAGE CACHE SHIFT - bbits); 





block_prepare_write 函数 第 一 部 分 为 页 面 创建 buffer head 管理 结构 ， 然 后 计算 需要 用 
到 的 参数 。 


变量 blocksize 保存 文件 块 的 大 小 ，block 计算 页 面 内 第 一 个 块 在 文件 内 的 逻辑 块 号 。 
__block_prepare_write 函数 随后 检查 所 有 需要 写 入 的 文件 块 ， 代 码 如 下 : 
/* 循环 中 历 所 有 的 块 */ 
for(bh = head，block_start = 0; bh != head || !block start; 
block++, block_start=block end, bh = bh->b_this_page) { 
block end = block_start + blocksize; 
/* 如 果 块 地 址 不 在 写 的 范围 内 ， 则 进入 下 一 个 块 */ 
if (block_end <= from 11 block start >= to) 1 
if (PageUptodate (page)) 1 
if (!buffer_uptodate (bh)) 
Set buffer uptodate (bh); 
} 
continve; 
上 
if (buffer_new(bh)) 
clear_buffer_new(bh); 
/* 文件 块 未 映射 到 硬盘 */ 
if (!buffer mapped(bh)) { 
WARN_ON (bh->b_size != blocksize); 
/* 获得 文件 块 的 物理 块 号 ， 映 射 到 具体 的 物理 设备 */ 


err = get_block(inode, block, bh, 1); 
if (err) 


break; 

if (buffer new(bh)) { 
unmap_underlying metadata (bh->b_bdev, bh->b_blocknr); 
/* 如 果 页 面 已 经 是 最 新 内 容 ， 那 么 设置 块 缓存 为 最 新 */ 
if (PageUptodate (page)) { 
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set_buffer_uptodate (bh); 
continues 


} 
/* 将 写 入 范围 之 外 的 数据 填充 为 0*/ 
if (block end > to || block start < from) { 
void *kaddr; 
kaddr = kmap atomic(page, KM USERO); 
if (block_end > to) 
memset (kaddr+to, 0, block_end-to); 
if (block start < from) 
memset (kaddr+block_start, 
0, from-block_start); 
flush_dcache_page (page); 
kunmap_atomic (kaddr, KM_ USERO); 
上 
continue; 
上 
} 
if (PageUptodate (page)) { 
if (!buffer_ uptodate (bh)) 
set_buffer_uptodate (bh); 
continue; 
} 
/* 写 入 的 地 址 没 按照 文件 块 对 齐 ， 需 要 读 出 文件 内 容 */ 
if (!buffer uptodate(bh) 66 !buffer delay(bh) &6 
(block_start < from || block end > to)) { 
11_rw_block (READ, 1, &bh); 
*wait_bh++=bhy 
} 
} 


__block_prepare_write 函数 第 二 部 分 逐个 遍历 页 面 内 所 有 的 文件 块 。 

如 果 当 前 块 不 在 写 和 的 范围 内 ， 只 顺便 检查 一 下 页 面 状 态 。 页 面 状 态 为 PG_uptodate， 
说 明 块 缓存 的 状态 也 必然 为 BH_uptodate， 因 此 设置 块 缓存 的 状态 为 最 新 。 如 果 页 面 状 态 不 
是 PG_uptodate， 跳 转 下 一 个 文件 块 ， 并 不 试图 获得 文件 块 的 物理 块 号 。 

如 果 当 前 块 在 写 入 的 地 址 范围 内 并 且 还 没 映射 到 物理 设备 ， 则 调用 文件 系统 get_block 
完成 到 物理 块 号 的 映射 。 映 射 完成 后 ， 同 样 检 查 页 面 状态 是 否 为 PG_uptodate， 是 的 话 则 设 
置 块 缓存 状态 为 BH_uptodate。 

如 果 最 终 块 缓存 不 是 最 新 内 容 ， 且 写 的 地 址 和 块 边界 未 对 齐 ， 则 需要 先 把 该 块 内 容 读 进 
来 。 这 是 因为 硬盘 这 样 的 块 设备 必须 以 扇 区 为 最 小 访问 单元 。 如 果 写 人 的 内 容 在 一 个 扇 区 的 
中 间 位 置 ， 必 须 把 整个 肩 区 内 容 读 出 来 ， 把 要 写 的 部 分 更 新 ， 复 合成 最 新 的 内 容 ， 才 能 写 人 
硬盘 。 

__block_prepare_write 函数 随后 部 分 检查 是 否 需 要 等 待 前 面 的 读 请 求 ， 代 码 如 下 : 

while(wait_bh > wait) { 


wait_on buffer(*--wait_bh); 
if (!buffer uptodate(*wait bh)) 
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err = -EIO; 
} 
if (!err) { 
bh = head; 


/* 遍历 块 缓 友 清除 new 标志 */ 
do 1{ 


if (buffer_new(bh)) 
clear_buffer_new(bh); 


} while ((bh = bh->b_this_page) != head); 
- return 07 


__block_prepare_write 函数 第 三 部 分 检查 前 面 的 处 理 过 程 是 否 产 生 了 读 请 求 ， 有 读 请 求 
必须 等 读 完 成 ， 否 则 块 缓存 状态 不 是 最 新 的 ， 将 产生 一 个 错误 。 
ext2 文件 系统 提供 的 commit_write 就 是 generic_commit_ write。 它 的 作用 是 逐个 遍历 所 


有 的 文件 块 ， 检 查 块 缓存 是 否 最 新 。 如 果 块 缓存 是 最 新 内 容 ， 标 记 文件 块 缓存 为 uptodate， 
同时 设置 块 缓存 为 dirty， 标 记 着 块 缓存 的 内 容 需 要 写 人 硬盘 。 


如 果 所 有 的 文件 块 缓存 都 是 最 新 的 ， 标 记 整 个 页 面 为 uptodate。 
文件 写 有 可 能 导致 文件 长 度 变 化 。 如 果 文 件 长 度 变 化 ， 则 需要 修改 文件 的 长 度 。 


10.7 本 章 小 结 
文件 读 写 的 过 程 比 较 复杂 ， 涉 及 文件 中 一 些 复杂 参数 的 计算 和 page cache 中 页 面 缓存 的 


状态 处 理 。 读 者 可 以 将 复杂 问题 形象 化 ， 自 己 设计 一 个 文件 ,设置 它 的 长 度 和 需要 读 写 的 字 
节 位 置 ， 对 照 代码 进行 推演 ， 这 样 可 以 比较 直观 地 理解 文件 的 读 写 过 程 。 


第 11 章 
通用 块 层 和 scsi 层 


在 内 核 中 通用 块 层 和 scsi 层 的 位 置 ， 上 接 文件 系统 的 VFS 层 ， 下 接 硬盘 驱动 。 通 用 块 层 
的 作用 就 是 处 理 LO 的 合并 或 者 排序 。 而 scsi 层 的 作用 主要 是 管理 scsi 设备 、 处 理 的 设备 的 
上 线 和 离线 、 为 设备 加 载 合 适 的 驱动 等 。scsi 层 同时 是 通用 块 层 的 下 一 层 ，1/O 处 理 的 时 候 也 
需要 经 过 scsi 层 。 通 用 块 层 和 scsi 层 的 一 部 分 共同 执行 1O 的 处 理 过 程 。 

scsi 层 在 内 核 中 担当 特殊 的 角色 。 即 使 某 些 不 是 scsi 设备 的 磁盘 (比如 ATA 格式 的 硬 
盘 )， 在 内 核 中 也 是 通过 scsi 层 来 管理 的 。 本 章 关注 重点 是 UO 的 处 理 过 程 ， 主 要 涉及 通用 块 
层 和 scsi 层 的 一 部 分 ，scsi 层 对 设备 的 管理 功能 不 在 本 章 讨论 范围 之 内 。 


11.1 块 设备 队列 

第 9 章 分 析 了 块 设 备 的 队列 和 队列 处 理 函 数 。 在 Linux 内 核 ， 读 写 操作 是 以 一 个 个 请 求 
的 方式 出 入 块 设备 的 队列 。 一 个 请 求 可 以 代表 一 个 UO， 也 可 以 代表 多 个 UO。 如 果 一 个 IO 
和 其 他 1/O 发 生 了 合并 ， 这 两 个 UO 在 一 个 请 求 里 面 。 所 有 需要 执行 的 请 求 ， 都 要 链接 到 块 
设备 队列 的 链表 。 第 9 章 还 分 析 了 块 设备 队列 的 电梯 对 象 ， 电 梯 提 供 了 块 设备 排序 的 算法 和 
排序 结构 ， 本 章 将 继续 讨论 。 


11.1.1 scsi 块 设备 队列 处 理 函 数 


scsi 作为 一 个 广泛 使 用 的 框架 ， 提 供 了 一 系列 的 块 设备 队列 处 理 函数 。 这 是 在 scsi_ 
alloc_queue 函数 中 实现 的 ， 如 代码 清单 11-1 所 示 。 


代码 清单 11-1 scsi_alloc_queue 函数 





struct request queue *scsi alloc queue(struct scsi device *sdev) 
{ 

struct Scsi_Host *shost = sdev->host; 

struct request queue *q; 
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q = blk_init queue(scsi request fn, NULL); 
if (!q) 
return NULL; 


blk_queve prep_rq(q, scsi_prep_fn); 


blk_queue_max_hw_segments (q， shost->sg_tablesize); 
blk_queue max_ phys_segments(q, SCSI_MAX_PHYS_SEGMENTS); 
blk_queue max_sectors(q, shost->max_sectors); 

blk_queue bounce_limit (q, scsi_calculate bounce limit (shost)); 
blk_queue_segment_boundary (q, shost->dma_boundary); 
blk_queue_issue flush_fn(q, scsi_issue flush_fn); 

blk_queue softirq done(q, scsi_softirq done); 


if (!shost->use_clustering) 
clear_bit (QUEUE_FLAG CLUSTER, &q->queue flags); 
return q; 








scsi_alloc_queue 函数 为 scsi 块 设备 创建 队列 结构 时 调用 。 默 认为 scsi 设备 提供 了 出 队列 
函数 sesi_request_fn 和 软 中 断 完成 函数 scsi_softirq_done。 


11.1.2 电梯 算法 和 对 象 


电梯 算法 在 内 核 中 已 经 被 抽象 为 一 个 对 象 ， 只 要 实现 一 些 基本 的 电梯 函数 ， 就 可 以 提供 
-个 电梯 算法 。 电 梯 结构 的 定义 如 代码 清单 11-2 所 示 。 


代码 清单 11-2 elevator_noop 算法 


static struct elevator type elevator noop ~ { 





ops = { 

“elevator merge req_fn ~ noop merged requests, 
.elevator dispatch_fn = noop_dispatch, 
“elevator_add_req_fn = noop_add_request, 
.elevator_queue_empty_fn = noop_queue_empty, 
.elevator_former_req_fn = noop_former_request, 
“elevator latter req_fn = noop_latter_request, 
-elevator_init_fn = noop_init_queue, 
“elevator exit_fn ~ noop_exit_queue, 


}, 

-elevator_name = "noop"， 

.elevator_owner = THIS_MODULE, 
a 





电梯 结构 elevator_type 最 重要 的 执行 函数 是 elevator_add_req_fn 和 elevator_dispatch_fn， 
分 别 用 来 向 电梯 加 入 一 个 请 求 和 从 电梯 获得 一 个 请 求 。 而 elevator_merge_req_fn 则 实现 IO 
的 合并 。 在 下 文 将 看 到 这 些 函数 的 使 用 方式 。 

电梯 算法 一 般 需 要 维护 一 个 队列 ， 这 个 队列 是 为 了 对 请 求 排序 或 者 执行 IO 合并 。 
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11.2 硬盘 HBA 抽象 层 

HBA ( Host Bus Adapter， 主 机 总 线 适配器 ) 通常 用 来 连接 计算 机 内 部 总 线 和 存储 系统 。 
用 来 接 入 硬盘 的 设备 ， 如 果 是 一 个 PCI 设备 ， 它 既是 一 个 PCI 设备 ， 同 时 支持 SCSI 硬盘 或 
者 ATA 硬盘 ， 它 就 是 一 个 HBA 设备 。 

HBA 设备 的 驱动 ， 既 是 PCI 驱动 ， 同 时 又 要 管理 和 控制 硬盘 ， 所 以 它 也 可 算 作 是 硬盘 驱 
动 。scsi 层 最 终 要 把 scsi 命令 发 送 到 硬盘 的 驱动 层 。 硬 盘 驱动 层 是 内 核 软 件 的 最 后 一 层 ， 当 
硬盘 驱动 把 命令 发 送 到 硬件 后 ， 就 脱离 了 软件 控制 的 范围 。 

为 便于 管理 硬盘 驱动 ， 内 核 抽 象 出 一 个 scsi_host_template 对 象 ， 所 有 的 硬盘 驱动 都 要 以 
这 种 方式 提供 。 将 scsi_host_template 结构 的 定义 简化 后 ， 如 代码 清单 11-3 所 示 。 


代码 清单 11-3 scsi_host_template 函数 





struct scsi_host_template { 
const char *name; 


int (* queuecommand) (struct scsi_cmnd *, void (*done) (struct scsi_cmnd *)); 
int (* eh_abort handler) (struct scsi_cmnd *); 
int (* eh_device_reset_handler) (struct scsi_cmnd *); 


int (* eh_host_reset_handler) (struct scsi_cmnd *); 


}; 





对 scsi_host_template 结构 的 重要 成 员 做 如 下 解释 。 

Oname: HBA 卡 的 名 字 。 

口 queuecommand: IO 函数 。 通 过 这 个 函数 将 scsi 命令 发 送 到 HBA 卡 ， 完 成 一 次 IO。 

口 eh_abort_handler: 撤销 一 个 scsi 命令 。 

口 eh_device_reset_handler: reset 某 个 硬盘 设备 。 这 个 硬盘 设备 将 离线 ， 然 后 重新 上 线 。 

口 eh_host_reset_handler: reset 整个 适配器 芯片 。 执 行 这 个 调用 ， 整 个 适配器 芯片 被 重启 ， 

所 有 的 硬盘 离线 ， 然 后 重新 被 扫描 一 次 。 

在 scsi_host_template 结构 提供 的 调用 函数 中 ， 异 常 处 理 占 了 很 大 一 部 分 。 对 一 个 IO 来 
说 ， 执 行 结 果 可 以 分 为 几 种 情况 。 

口 VO 命令 执行 完成 ， 而 且 IO 执行 成 功 。 

QIO 命令 执行 完成 ,但 是 IO 未 成 功 ， 返 回 有 错误 。 

口 IO 超时 未 返回 。 

对 于 IO 返回 有 错误 的 情况 ， 内 核 根据 错误 类 型 ,选择 再 次 执行 该 1O 命令 或 者 交 给 scsi 
错误 处 理 任务 处 理 。 对 1/O 超时 未 返回 ， 则 必须 由 scsi 错误 处 理 任务 控制 。 

scsi 错误 处 理 任务 通常 首先 abort (取消 ) 出 错 的 命令 ， 如 果 不 能 奏效 ， 尝 试 reset 硬盘 设 
备 ; 如 果 仍然 不 能 奏效 ， 尝 试 reset 总 线 ; 如 果 仍 不 能 奏效 ， 尝 试 reset 整个 芯片 。 由 于 各 个 
厂家 的 HBA 芯片 实现 各 有 不 同 ， 笔 者 发 现 很 多 情况 下 ， 这 个 错误 处 理 流程 会 导致 错误 。 最 
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常见 的 错误 就 是 CPU 占有 率 100% 和 abort 处 理 时 异常 ， 导 致 硬盘 离线 。 所 以 实现 用 户 定制 
的 错误 处 理 逻 辑 可 能 是 一 个 正确 的 选择 。 


11.3 ”1O 的 顺序 控制 


JI/O 的 顺序 是 通用 块 层 中 一 个 比较 重要 的 概念 。 很 多 应 用 要 求 IO 必须 按照 指定 的 顺序 执 
行 ， 为 此 内 核 使 用 了 barrier IO 的 概念 来 实现 IO 的 顺序 。 指 的 是 barrier IO 之 前 的 UO 必须 
执行 完毕 ， 然 后 再 执行 barrier IO， 而 barrier IO 之 后 的 IO 必须 在 barrier IO 执行 完毕 才能 
执行 ， 就 像 /O 队列 中 插 人 了 一 个 栅栏 。 

假设 有 1，2，3，4，5 五 个 IO， 其 中 4 是 barrier UO。 这 意味 着 ， 必 须 1，2，3 执行 完 
毕 再 执行 4， 在 4 执行 完毕 之 前 不 能 执行 任何 LO。 

需要 指出 的 是 ， 按 照 顺序 下 发 1，2，3，4， 5 并 不 能 保证 UO 的 完成 顺序 。 这 是 因为 硬 
盘 本 身 有 缓存 (cache) 和 队列 ， 并 不 是 按照 下 发 的 顺序 来 执行 UO。 如 何 实现 IO 顺序 ? 

这 就 必须 利用 同步 cache 命令 。 即 发 现 4 是 一 个 barrier IO 后 ， 插 一 个 同步 cache 命令 ， 
再 下 发 4， 然 后 再 插 一 个 同步 cache 命令 。 在 4 执行 完毕 之 前 ， 不 能 再 发 送 新 的 IO 命令 。 有 
人 可 能 有 疑问 ,1,， 2, 3 的 执行 顺序 能 否 保证 ?答案 是 不 能 ，!1 ， 2, 3 既然 没 设置 barrier 标志 ， 
意味 可 以 乱 序 执行 。 

复杂 一 点 的 情况 是 ， 如 果 硬件 支持 FUA 标志 ， 也 就 是 说 这 个 1/0 会 跳 过 硬盘 的 buffer， 
后 面 的 一 次 同步 cache 命令 就 可 以 省 略 。 更 复杂 的 情况 ， 如 果 硬 件 支持 TAG 队列 功能 ， 在 执 
行 保证 顺序 操作 的 过 程 中 ,仍然 可 以 下 发 新 的 WO。 在 后 面 的 代码 中 ， 可 以 见 到 对 LO 的 这 
种 处 理 方法 。 





11.4 ”I/O 调度 算法 

一 个 IO 调度 算法 ， 关 键 就 是 实现 elevator 结构 需要 的 几 个 函数 ， 然 后 注册 调度 算法 。 
用 户 可 以 通过 proc 文件 系统 选择 1/O 调度 算法 ， 内 核 将 根据 设 定 的 1/O 调度 算法 对 IO 执行 
调度 。 


11.4.1 noop 调度 算法 


. noop 调度 算法 是 最 简单 的 调度 算法 ， 如 它 的 名 字 所 言 ， 基 本 什么 都 没 做 ， 等 同 于 一 个 先 
进 先 出 的 调度 算法 ， 本 身 没 对 IO 进行 真正 的 排序 。1/O 调度 算法 的 和 人 队列 函数 决定 了 IO 是 
如 何 插入 电梯 队列 的 ， 因 此 首先 分 析 入 队列 函数 。noop 调度 算法 的 人 队列 函数 是 noop_add_ 
request， 如 代码 清单 11-4 所 示 。 


代码 清单 11-4 noop_add_request 函数 








static void noop add_request (request queue t *q, struct request *rq) 
{ 
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struct noop_data *nd = q->elevator->elevator data; 
list add tail (srq->queuelist, snd->queue); 
} 


noop 调度 算法 的 人 队列 函数 极其 简单 ， 就 是 把 请 求 加 入 noop 的 链表 ， 没 有 执行 任何 排 


序 工作 。 
LO 调度 算法 的 出 队列 函数 决定 了 LUO 是 如 何 被 挑选 ， 然 后 由 硬盘 驱动 执行 。noop 调度 
算法 的 出 队列 函数 是 noop_dispatch， 如 代码 清单 11-5 所 示 。 


代码 清单 11-5 noop_dispatch 函数 


static int noop_dispatch (request_queue_t *q, int force) 
{ 
struct noop data *nd ~ q->elevator->elevator data; 
/* 判断 队列 非 空 */ 
if (!list_empty(snd->queue)) { 
struct request *rq; 
/* 取出 I/O 请求 */ 
rq ~ list_entry(nd->queue.next, struct request, queuelist); 
list del_init (srq->queuelist); 
/*I/O 请 求 送 到 块 设备 的 队列 */ 
elv_dispatch_sort (q, rq); 
return 1; 
) 
return 07 
} 











noop 出 队列 函数 从 队列 头 取出 最 先 插入 队列 的 一 个 UO， 然 后 将 IO 送 到 块 设备 的 队列 。 
IO 从 块 设备 队列 到 驱动 执行 的 过 程 ， 是 由 scsi 层 控制 的 。 


11.4.2 deadline 调度 算法 

和 noop 调度 算法 相 比 ，dealline 调度 算法 更 复杂 ， 它 内 部 启用 了 一 个 红 黑 树 结构 来 对 
IO 进行 排序 ， 保 证 IO 出 队列 时 ， 已 经 按照 房 区 地 址 排 好 顺序 了 。deadline 调度 算法 代码 在 
block 目录 的 dealline-iosched 文件 中 。 在 分 析 算 法 前 ， 首 先 分 析 deadline 调度 算法 定义 的 内 
部 数据 结构 ， 如 代码 清单 11-6 所 示 。 


代码 清单 11-6 deadline_data 函数 





struct deadline data { 
struct rb_root sort_list[2]; 
struct list_head fifo_list[2]; 


struct deadline_rq *next_drq[2]; 


struct hlist_head *hash; /* request hash */ 
unsigned int batching; /* number of sequential requests made */ 
sector t last_sector; /* head position */ 


unsigned int starved; /* times reads have starved writes */ 
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int fifo expire[2]; 
int fifo_batch; 

int writes_starved; 
int front_merges; 


mempool_t “drq_pools 
} 





从 deadline 的 数据 结构 可 以 发 现 ， 有 两 个 队列 ， 一 个 是 红 黑 树 sort_list， 另 一 个 是 链表 
fifo_list。 

一 个 VO 进入 dealline 队列 的 时 候 ， 要 被 插入 红 黑 树 队列 和 fifo 两 个 队列 ， 红 黑 树 是 按照 
扇 区 地 址 排序 的 队列 ， 而 fifo 则 按照 IO 的 先后 顺序 排序 。 每 个 队列 都 是 两 成 员 的 数组 ， 这 
是 为 了 分 别 保存 读 请 求 和 写 请 求 ， 即 读 写 请 求 分 别 保存 在 不 同 的 队列 中 。 

deadline 调度 算法 源 文件 只 有 几 百 行 ， 重 点 分 析 插入 队列 的 过 程 和 出 队列 的 过 程 ， 就 可 
以 基本 明白 deadline 算法 的 设计 思路 。 首 先 从 人 队列 函数 开始 分 析 ，deadline 算法 的 入 队列 
函数 是 deadline_add_request， 如 代码 清单 11-7 所 示 。 


代码 清单 11-7 deadline_add_request 函数 





static void 
deadline add_request (struct request queue *q, struct request *rq) 
{ 

struct deadline data *dd = q->elevator->elevator data; 

struct deadline_rq *drq = RQ_DATA(rq); 


const int data_ dir = rq data dir(drq->request); 
/*deadline 请 求 加 入 红 黑 树 队列 */ 
deadline add drq rb(dd, drq); 
/* 设置 deadline 请 求 的 超时 时 间 ， 然 后 加 入 到 fifo 队列 */ 
drq->expires = jiffies + dd->fifo expire[data dir]; 
list add tail(sdrq->fifo, sdd->fifo_list[data dir]); 
/1* 如 果 请 求 可 以 合并 ， 则 还 要 加 入 hash 链表 */ 
if (rq_mergeable (rq)) 
deadline add drq hash (dd, drq); 
} 





deadline_add_request 阴 数 首先 把 请 求 加 入 红 黑 树 队 列 。deadline 算法 的 红 黑 树 根据 扇 区 
地 址 的 顺序 排序 ， 因 此 插入 过 程 是 以 O 请 求 的 扇 区 地 址 作为 key。 其 次 要 设置 请 求 的 超时 
时 间 ， 然 后 加 入 先进 先 出 的 fifo 队列 。 设 置 超时 时 间 的 目的 是 防止 VO 在 队列 中 时 间 过 长 ， 
影响 业务 的 使 用 。 

deadline 调度 算法 IO 出 队列 的 函数 是 deadline_dispatch_requests， 如 代码 清单 11-8 
所 示 。 


代码 清单 11-8 deadline_dispatch_requests 函数 





static int deadline dispatch requests(request queue t *q, int force) 
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struct deadline data *dd = q->elevator->elevator data; 
const int reads = !list_empty (sdd->fifo_list [READ]); 
const int writes = !list empty(sdd->fifo list [WRITE]); 
struct deadline_rq *drq; 

int data_dir; 


if (dd->next_drq[WRITE]) 

drq = dd->next_drq[WRITE]; 
else 

drq = dd->next_drq[READ]; 


if (drq) { 
/* we have a "next request" */ 
/*I/0 批 处 理 */ 
if (dd->last_sector !~ drq->request->sector) 
/* end the batch on a non sequential request */ 
dd->batching += dd->fifo_ batch; 


if (dd->batching < dd->fifo_batch) 
/* we are still entitled to batch */ 
goto dispatch_request; 





deadline 算法 首先 根据 一 系列 设 定 的 条 件 选择 要 处 理 的 IO。 

第 一 部 分 判断 是 否 连续 的 批 模式 。 如 果 当 前 WO 和 前 面 IO 的 扇 区 地 址 是 连续 的 而 非 随 
机 的 ， 满 足 批 模式 的 条 件 ， 则 直接 进入 dispatch_request 优先 处 理 。deadline 还 设置 了 一 个 
fifo_batch 数值 ， 批 模式 优先 处 理 的 IO 个 数 不 能 超过 这 个 数值 。 


if (reads) { 
BUG_ON (RB_EMPTY_ROOT (&dd->sort_list [READ])); 
/* 存在 读 写 请 求 ， 而 写 请 求 已 经 超过 设 定 的 俄 死 时 间 的 情况 下 ， 优 先 处 理 写 */ 
if (writes 655 (dd->starved++ >= dd->writes_starved)) 
goto dispatch writes; 
/* 如 果 不 存在 写 超过 俄 死 时 间 ， 则 处 理 读 请 求 */ 
data_dir = READ; 
goto dispatch find_request; 
} 


if (writes) { 
dispatch_writes: 
BUG_ON (RB_EMPTY_ROOT (sdd->sort_list [WRITE])); 
dd->starved = 0; 
data dir ~ WRITE; 
goto dispatch find_request; 
} 


return 0; 


deadline 算法 第 二 部 分 检查 读 写 请 求 的 饥饿 时 间 。deadline 算法 设 定 读 请 求 优先 ， 如 果 
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队列 中 存在 读 请 求 ， 则 进入 dispatch_find_request 分 支 去 挑选 一 个 读 请 求 进 行 处 理 ， 但 是 
也 不 能 无 限制 拖延 写 请 求 ， 每 个 写 请 求 设 定 了 一 个 饥饿 时 间 ， 超 过 这 个 时 间 就 必须 优先 处 


理 写 请 求 。 
如 果 队 列 中 没有 读 请 求 ， 而 且 不 存在 写 请 求 超时 ， 进 入 dispatch_find_request 分 支 去 挑选 
一 个 写 请 求 进行 处 理 。 
dispatch_find_request: 
if (deadline check fifoldd, data_ dir)) { 
/* 如 果 有 读 请 求 超时 ， 则 优先 处 理 */ 
/* An expired request exists - satisfy it */ 
dd->batching = 0; 
drq ~ list_entry fifo(dd->fifo list[data_dir] .next); 


} else if (dd->next drqldata dir]) { 
/* 从 请 求 方向 相同 (都 是 读 或 者 都 是 写 ) 的 队列 挑选 下 一 个 请 求 */ 
drq = dd->next_drqldata_ dir]; 

} else { 

/* 从 红 黑 树 队列 选 一 个 请 求 */ 

dd->batching = 0; 

drq = deadline find first_drq(dd, data_dir); 
) 


dispatch_request: 
dd->batching++; 
deadline_move_request (dd, drq); 


return 1; 


deadline 算法 第 三 部 分 要 挑选 一 个 出 队列 的 UO。 首 先 的 条 件 是 检查 读 请 求 是 否 超时 。 读 
请 求人 队列 的 时 候 设置 了 一 个 超时 时 间 ， 超 过 这 个 时 间 必 须 马 上 处 理 。 如 果 没 超时 的 读 请 
求 ， 则 从 同方 向 的 请 求 队列 (都 是 读 或 者 都 是 写 ) 选择 下 一 个 请 求 。 

最 后 ， 如 果 以 上 条 件 都 不 满足 ， 说 明 同一 个 方向 已 经 没有 下 一 个 请 求 ， 或 者 一 个 电梯 已 
经 完成 (完成 从 低 到 高 的 一 个 循环 )， 需 要 重新 开始 一 轮 循环 ， 因 此 从 红 黑 树 队列 中 重新 挑选 
一 个 新 的 UO。 挑 选 UO 的 函数 是 deadline_find_first_drq， 如 代码 清单 11-9 所 示 。 


代码 清单 11-9 deadline_find_first_drq 函数 


static struct deadline rq * 
deadline find first_drq(struct deadline data *dd, int data_dir) 
{ 

struct rb node *n ~ dd->sort list[data dir].rb_node; 





for (727) { 
if (n->rb_left == NULL) 
return rb_entry drq(n); 
n = n->rb_left; 
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deadline 算法 重新 挑选 一 个 1/O 请 求 的 条 件 ， 就 是 根据 LO 的 方向 ( 读 或 者 写 ) 从 相应 的 
红 黑 树 队列 中 取出 最 左边 的 一 个 JO。 因 为 硬盘 顺序 是 按照 从 低 到 高 的 扇 区 地 址 排序 的 ， 选 
出 最 左边 的 VO， 其 实 就 是 选择 扇 区 最 小 的 UO， 后 续 1O 的 扇 区 地 址 都 大 于 这 个 WO， 从 而 
开启 一 轮 新 的 循环 。 


11.5 I/O 的 处 理 过 程 


11.5.1 “I/O 插入 队列 的 过 程 分 析 
根据 前 文 第 10 章 的 分 析 ， 文 件 系统 提交 IO 都 要 通过 submit_bio 来 提交 一 个 IO。 
1. submit_bio 函数 
submit_bio 函数 是 文件 系统 VFS 层 和 通用 块 层 的 衔接 点 ， 本 节 从 这 个 函数 开始 分 析 ， 如 
代码 清单 11-10 所 示 。 
代码 清单 11-10 submit_bio 函数 


void submit_bio(int rw, struct bio *bio) 
{ 
/* 计算 扁 区 数目 */ 


int count = bio_sectors (bio); 





bio->bi_rw |= rw; 
if (rw & WRITE) 

count_vm_events (PGPGOUT, count); 
else 

count_vm events (PGPGIN, count); 
/*dump io， 用 来 调试 */ 
if (unlikely(block dump)) { 
省略 部 分 代码 */ 


generic_make_request (bio); 


2. generic_make_request 函数 

submit_bio 函数 调用 generic_make request 向 通用 块 层 提交 一 个 请 求 ， 输 入 的 参数 是 一 
个 bio 结构 ，generic_make_request 函数 要 把 bio 转换 为 底层 处 理 的 请 求 结构 ， 分 两 部 分 介绍 。 
如 代码 清单 11-11 所 示 。 


代码 清单 11-11 generic_make_request (IL_rw_blk.c) 





void generic make_request (struct bio *bio) 
{ 

request_queue t *q; 

sector_t maxsector; 

int ret, nr_sectors = bio_sectors (bio); 
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dev t old dev; 
/1* 在 执行 较 长 时 间 的 任务 之 前 ， 执 行 一 次 调度 */ 
might_sleep(); 
/* Test device or partition size, when known. */ 
/* 检查 是 否 超过 了 磁盘 的 扁 区 限制 */ 
maxsector = bio->bi_bdev->bd_inode->i_size >> 9; 
if (maxsector) { 
sector_t sector = bio->bi_sector; 
if (maxsector < nr_sectors || maxsector - nr_sectors < sector) { 
handle_bad_sector (bio); 
goto end_io; 


和 


generic_make_request 函数 第 一 部 分 检查 最 大 扇 区 限制 。 执 行 1O 的 起 始 扇 区 地 址 加 IO 
大 小 的 结果 不 应 该 超过 块 设备 的 物理 扇 区 地 址 ， 否 则 就 要 结束 本 次 /JO， 返回 错 误 。 

generic_make_request 函数 第 二 部 分 检查 1/O 的 大 小 不 应 该 超过 块 设备 的 最 大 可 处 理 扇 
区 。 后 者 是 块 设备 本 身 的 特性 ， 它 限制 了 块 设备 一 次 IO 所 能 处 理 的 最 大 扇 区 数目 。 


maxsector = -1; 

old dev = 0; 

do { 
char b[BDEVNAME SIZE]; 
/* 获得 块 设备 的 队列 “/ 
q = bdev_get_queue (bio->bi_bdev); 
if (!q) 1 

end_io: 





bio_endio (bio, bio->bi_size, -EIO); 
break; 
} 


/* I/0 超 过 了 设备 的 物理 最 大 允许 扁 区 */ 

if (unlikely(bio_sectors(bio) > q->max_hw_sectors)) { 
goto end_io; 

} 

if (unlikely(test_bit (QUEUE_FLAG DEAD, sq->queue flags))) 
goto end_io; 


/* 如 果 磁 盘 有 分 区 的 处 理 */ 

blk_partition_remap (bio); 

/* 省 略 T/O 追踪 的 代码 */ 
maxsector = bio->bi_sector; 
old_dev = bio->bi bdev->bd dev; 
ret = q->make_request_fn(q, bio); 

} while (ret); 

} 


如 果 IO 所 在 的 块 设备 是 个 分 区 块 设备 ， 必 须 找到 分 区 的 结构 hd_struct，1/O 的 起 始 肩 区 
地 址 要 加 上 分 区 的 起 始 地 址 ， 才 是 真正 的 物理 地 址 。 也 要 将 分 区 块 设备 替换 为 块 设备 所 在 物 
理 硬盘 的 主 块 设备 。 
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3. _make_request 函数 
最 后 ， 调 用 队列 提供 的 make_request fn 函数 。 前 文 分 析 过 ，scsi 提供 的 队列 make_ 


request_fn 就 是 “make request 函数 ， 如 代码 清单 11-12 所 示 。 
代码 清单 11-12 __make_request (Il_rw_blk.c) 





static int _ make request (request queue t *q, struct bio *bio) 


ee /* 省 略 部 分 代码 */ 
sector = bio->bi_sector; 

nr_sectors = bio_sectors (bio); 
cur_nr_sectors = bio_cur_sectors (bio); 
prio = bio prio(bio); 


rw = bio_data_dir (bio); 
sync = bio_sync (bio); 





__make_request 函数 是 通用 块 层 的 主 处 理 流程 。 它 的 作用 就 是 判断 IO 能 否 合并 ， 如 果 
可 以 合并 ， 则 不 申请 新 请 求 ， 而 是 合 和 人 前面 的 请 求 ， 如 果 不 能 合并 ， 就 申请 新 请 求 结构 ， 并 
且 插 人 电梯 的 队列 ， 分 五 部 分 介绍 。 

第 一 部 分 从 bio 结构 获得 UO 的 起 始 扇 区 地 址 和 以 扇 区 度量 的 IO 大 小 。 变 量 sync 标志 
当前 IO 是 否 需 要 同步 处 理 。 带 有 sync 标志 的 IO 和 普通 IO 的 处 理 方式 有 所 不 同 。 


0 
全 注意 

”这 里 的 syne 标志 和 打开 文件 时 候 设置 的 O_SYNC 标志 不 是 一 回 事 ， 两 者 的 处 理 远 辑 也 
不 相同 。 


__make_request 函数 第 二 部 分 首先 检查 是 否 需要 bounce。 


blk_queue_bounce(q，sbio): 
spin_lock_prefetch(q->queue_lock); 
/* 检查 是 否 barrier I/0， 后 面 要 处 理 */ 
barrier = bio_barrier (bio); 
if (unlikely(barrier) && (q->next_ ordered == QUEUE ORDERED NONE)) { 
err = -EOPNOTSUPP; 
goto end_io; 
} 
spin_lock_irq(q->queue_lock); 
/* 如 果 是 barrier 请 求 ， 或 者 电梯 空 ， 不 再 判断 是 否 需 要 合并 I/O*/ 
if (unlikely(barrier) || elv_queue_empty(q)) 
goto get_rq; 


为 何 需要 bounce ? 因为 有 些 老 设备 支持 的 DMA 区 间 不 能 覆盖 内 存 空 间 ， 而 bio 结构 成 
员 bio_vec 里 面 提供 的 内 存 可 能 不 在 设备 能 访问 的 内 存 范围 之 内 ， 如 果 这 种 情况 发 生 ， 就 要 
另外 申请 低位 内 存 ， 以 低位 内 存 作为 DMA 内 存 ， 等 设备 DMA 操作 完成 后 ， 再 把 数据 复制 
到 bio_vec 提供 的 内 存 里 。 


11.5 VO 的 处 理 过 程 人 


其 次 检查 IO 是 否 barrier UO。 对 于 barrier UO， 就 直接 进入 get_rq 分 支 ， 不 再 判断 是 否 


可 以 合并 ， 因 为 barrier IO 的 性 质 决定 了 它 不 能 和 之 前 的 1/O 进行 合并 。 


_make_request 函数 第 三 部 分 处 理 后 向 合并 。 


el_ret = elv mergel(q, &req, bio); 
switch (el ret) { 
/* 后 向 合并 */ 
case ELEVRTOR_BRCK_MERGE: 
BUG_ON(!rq_mergeable (req)); 
if (!q->back_merge_fn(q, req, bio)) 
break; 
blk_add trace bio(q, bio, BLK_ TA _ BACKMERGE); 


/* 合并 后 ， 要 改 bio 的 尾部 为 新 的 这 个 I/0， 同时 调整 扁 区 数 */ 

req->biotail->bi_next = bio; 

req->biotail = bio; 

req->nr_sectors = req->hard nr_sectors += nr_sectors; 

req->ioprio = ioprio_best (req->ioprio, prio); 

drive_stat acct(req, nr_sectors, 0); 

/* 调用 电梯 提供 的 合并 函数 */ 

if (!attempt_back merge(q, req)) 
elv_merged_request (q, req); 

goto out; 


后 向 合并 指 的 是 当前 VO 可 以 合并 到 某 个 请 求 的 尾部 ， 这 种 情况 要 把 请 求 的 尾部 bio 改 





为 新 的 bio， 请 求 的 扇 区 数 要 加 上 新 bio 的 扇 区 数 。 然 后 调用 电梯 提供 的 合并 函数 执行 IO 合 
并 操作 。 


__make_request 函数 第 四 部 分 处 理 前 向 合并 。 


/* 前 向 合并 */ 
case ELEVRATOR_FRONT_MERGE: 
BUG_ON (!rq_mergeable (req)); 
if (1!q->front merge fn(q, req, bio)) 
break; 
blk_add_trace_bio(q, bio, BLK_TA_FRONTMERGE); 
bio->bi_next = req->bio; 


req->bio ~ bio; 

req->buffer = bio_data (bio); 

req->current nr_sectors ~ cur_nr_sectors; 

req->hard_cur_sectors = cur_nr_sectors; 

req->sector = req->hard_sector = sector; 

req->nr_sectors = req->hard_nr_sectors += nr_sectors; 

req->ioprio = ioprio_best (req->ioprio, prio); 

drive stat acct(req, nr_sectors, 0); 

if (!attempt_front_merge(q, req)) 
elv_merged_request (q, req); 

goto out; 


前 向 合并 的 处 理 方式 和 后 向 合并 很 相似 ， 区 别 是 前 向 合并 要 把 新 bio 置 于 请 求 结构 中 bio 
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链表 的 头 部 。 然 后 调用 电梯 的 合并 函数 执行 IO 合并 。 
_make_request 函数 第 五 部 分 申请 请 求 。 
get_rq: 
req = get_request wait(q, rw, bio); 
init_request_from bio(req, bio); 
spin_lock irq(q->queue_lock); 
/* 如 果 块 设备 队列 和 电梯 队列 都 空 的 ， 需 要 阻塞 块 设备 队列 */ 
if (elv_queue empty(q)) 
blk_plug_device(q); 
/* 把 请 求 加 入 请 求 队列 */ 
add_request (q, req); 
out: 
/* 如 果 是 同步 IT/O， 立 即 解除 队列 阻塞 ， 把 I/O 请 求 下 发 */ 
if (sync) 
__generic_unplug_device (q); 
spin_unlock_irq(q->queue_lock)7 
return 0; 


如 果 前 面部 分 的 前 向 合并 和 后 向 合并 都 不 能 执行 ， 就 必须 申请 一 个 新 的 请 求 。_make_ 
request 函数 调用 get_request_wait 申请 一 个 新 的 请 求 ， 而 init_request_from_bio 函数 则 根据 
bio 的 类 型 初始 化 请 求 和 设置 请 求 标志 。 通 常 的 请 求 标志 如 下 列 所 示 。 

口 REQ_FAILFAST : 一 般 UO 失败 后 要 重 试 几 次 。REQ_FAILFAST 标志 不 重 试 ， 立 即 

返回 。 

DREQ_HARDBARRIER 和 REQ_SOFTBARRIER: 标志 一 个 barrier 请 求 。 

DREQ_RW_SYNC: 同步 标志 。 有 同步 标志 ， 则 立即 对 电梯 队列 执行 unplug 操作 。 

创建 新 请 求 后 ， 要 对 队列 执行 plug 和 unplug 操作 。plug 就 是 阻塞 ， 一 个 阻塞 的 队列 是 
不 能 下 发 IO 的 ， 要 下 发 /JO， 必 须 执行 unplug。plug 队列 的 同时 要 启动 一 个 定时 器 (默认 3 
毫秒 )， 在 时 间 到 达 后 unplug 队列 ， 开 始 下 发 /O。plug 队列 和 定时 器 的 设置 ， 说 明 UO 不 是 
马上 下 发 ， 需 要 等 待 后 续 的 UO。 对 带 有 sync 标志 的 IO 是 个 特例 ， 要 立即 unplug。 


人 
~] 注意 

plug 和 unplug 针对 的 是 块 设备 队列 ， 操 作对 象 并 不 一 定 是 同一 个 IO。plug 时 阻塞 的 
LO， 不 一 定 在 unplug 时 被 下 发 ， 可 能 下 发 别 的 IO。 


4. elv_merge 函数 
在 _make_request 函数 里 面 ， 判 断 两 个 IO 能 否 合并 ， 使 用 了 elv_merge 函数 ， 需 要 分 
析 一 下 它 的 实现 ， 函 数 代码 如 代码 清单 11-13 所 示 。 


代码 清单 11-13 elv_merge 函数 


int elv_merge (request_queue_ t *q, struct request **req, struct bio *bio) 
{ 

elevator t *e = q->elevator; 

int ret; 





11.5 1/O 的 处 理 过 程 


/* 判断 块 设备 队列 能 否 合并 ? */ 
if (q->last_merge) { 
ret = elv_ try merge(q->last merge, bio); 
if (ret != ELEVATOR NO MERGE) { 
*req = q->last_merge; 
return ret; 
} 


} 
/* 否则 在 电梯 队列 里 面 查找 ， 看 能 否 合并 */ 
if (e->ops->elevator_merge_fn) 
return e->ops->elevator_merge_fn(q, req, bio); 
return ELEVATOR_NO_MERGE; 
} 


static inline int elv try merge(struct request *_rq, struct bio *bio) 
{ 

int ret ~ ELEVATOR_NO_MERGE; 

if (elv_rq merge ok(_rq, bio)) { 


if (_rq->sector + _ rq->nr sectors -~ bio->bi_sector) 
ret = ELEVATOR_BACK_MERGE; 
else if (_rq->sector - bio_sectors (bio) «= bio->bi_sector) 


ret = ELEVATOR_FRONT MERGE; 
} 
return ret; 


} 





elv_merge 函数 通过 两 步 来 判断 UO 能 否 合 并 。 


第 一 步 判 断 能 否 和 块 设备 队列 的 最 后 一 个 请 求 合 并 。 判 断 是 通过 请 求 的 扇 区 地 址 决定 
的 ， 如 果 请 求 的 最 后 扇 区 位 置 是 10000， 而 新 的 UO 从 10000 开始 ， 那 就 是 后 向 合并 。 如 果 
新 的 IO 从 9995 开始 ， 而 IO 长 度 是 五 个 扇 区 ， 那 就 是 前 向 合并 。 
第 二 步调 用 电梯 队列 提供 的 函数 判断 能 否 合并 。1/O 调度 算法 一 般 都 要 提供 自己 的 合并 
函数 。 比 如 deadline 调度 算法 提供 的 合并 函数 就 要 在 电梯 队列 中 寻找 能 和 当前 IO 合并 的 
请 求 。 


5. _elv_add_request 函数 


对 于 不 能 合并 的 UO， 需 要 把 一 个 请 求 插入 到 队列 。 这 通过 函数 add_request 实现 。 它 又 
是 通过 调用 _elv_add_request 函数 实现 插入 的 功能 ， 因 此 直接 分 析 _ elv_add_request 函数 ， 
它 的 代码 如 代码 清单 11-14 所 示 。 


代码 清单 11-14 __elv_add_request 函数 





void _ elv add request (request queue t *q, struct request *raqy 
int where, int plug) 
{ 
if (q->ordcolor) 
rq->flags |= REQ_ORDERED COLOR; 
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if (rq->flags 5 (REQ SOFTBARRIER | REQ_HARDBARRIER)) { 
if (blk barrier_rq(rq)) 
q->ordcolor “= 1; 
if (where == ELEVATOR_INSERT_SORT) 
where = ELEVATOR_ INSERT BACK; 


/* 如 果 是 文件 系统 来 的 请 求 ， 则 更 新 end_sector 和 边界 请 求 */ 
if (blk fs_request(rq)) { 
q->end_sector = rq_end_sector (rq); 
q->boundary_rq = rq; 
} 
| else if (!(rq->flags 5 REQ ELVPRIV) 56 where == ELEVATOR_INSERT SORT) 


where = ELEVATOR_INSERT BACK; 
/* 阻塞 块 设备 队列 */ 
if (plug) 

blk_plug_device (q); 


elv_insert(q, rq, where); 
} 


1/0 择 入 电梯 队列 时 ， 要 判断 1/O 是 否 barrier 请 求 。barrier IO 要 求 保证 顺序 ， 因 此 
barrier 1/O 之 前 的 1/O 请 求 必须 完成 ， 所 以 对 于 barrier 请 求 ， 把 默认 插入 方式 改 为 从 后 方 
加 入 。 


6. elv_insert 函数 
函数 最 后 调用 了 elv_insert， 这 个 函数 要 根据 插入 的 位 置 执行 ， 它 的 代码 如 代码 清 
单 11-15 所 示 。 
代码 清单 11-15 elv_insert 函数 


void elv_insert (request queue t *q, struct request *rq, int where) 
{ 

struct list head *pos; 

unsigned ordseq; 

int unplug_it = 17 

blk_add trace_rq(q, rq, BLK_TA_INSERT); 

rq->q = q; 





switch (where) { 

case ELEVATOR_ INSERT FRONT: 

/* 对 前 向 插入 ， 标 志 加 一 个 SOFTBARRIER， 请 求 直接 加 入 块 设备 队列 的 头 */ 
rq->flags |= REQ_SOFTBARRIER; 
list add(érq->queuelist, 5q->queue head); 
break; 





elv_insert 函数 第 一 部 分 是 处 理 前 向 插入 。 前 向 插入 意味 着 新 请 求 位 置 在 所 有 队列 IO 的 
最 前 面 。 这 种 情况 请 求 不 需要 加 入 电梯 队列 ， 因 为 它 不 需要 在 电梯 中 等 待 ， 而 是 直接 插入 到 
块 设备 队列 的 最 前 面 。 


11.5 1/O 的 处 理 过 程 。 


elv_insert 函数 第 二 部 分 是 处 理 后 向 插入 。 后 向 插入 意味 着 新 请 求 位 置 在 所 有 队列 IO 的 


最 后 面 。 


case ELEVATOR_INSERT BACK: 
/* 后 向 插入 ,要 排 空 队 列 中 的 10。 然后 把 请 求 加 入 块 设备 队列 的 链表 尾 */ 


rq->flags |= REQ_SOFTBARRIER; 
elv_drain_elevator (q); 

list add tail (srq->queuelist，5q->queue_head); 
/* 移 走 阻塞 标志 ,调用 request_fn 开始 I/0*/ 
blk_remove_plug (q); 

q->request_fn (q); 

break; 


现 有 电梯 队列 中 的 IO 怎么 办 ? 必须 全 部 下 发 ， 所 以 首先 要 调用 elv_drain_elevator 函数 
排 空 电梯 队列 的 所 有 UO， 排 空 之 后 所 有 的 UO 进入 块 设备 队列 ， 然 后 把 请 求 加 到 块 设备 队 
列 的 尾部 ， 实 现 后 向 插入 的 要 求 。 最 后 unplug 队列 ， 调 用 队列 的 request_f 函数 从 块 设备 队 
列 挑选 1O 执行 。 

elv_insert 函数 第 三 部 分 是 处 理 按 顺 序 插入 和 重 插 。 


case 


case 


ELEVATOR_INSERT_SORT: 

BUG_ON (!blk_fs_request (rq)); 

rq->flags |= REQ_SORTED; 

q->nr_sortedt+; 

/* 更 新 1ast_merge， 即 最 后 一 个 可 merge 的 请 求 */ 

if (q->last_merge == NULL 5&6 rq_mergeable (rq)) 
q->last_merge ~ rq; 

q->elevator->ops->elevator_ add_req_fn(q, rq); 

break; 


ELEVATOR_INSERT_REQUEUE: 
/* 重 插队 列 */ 
rq->flags |= REQ_SOFTBARRIER; 
/* 如 果 队 列 无 保证 顺序 操作 ， 则 插入 队列 头 */ 
if (q->ordseq == 0) { 
list_add(srq->queuelist, sq->queue_head); 
break; 


} 
/* 根据 请 求 的 性 质 ， 判 断 重播 的 位 置 */ 
ordseq = blk_ordered_req_seq(rq); 


list_for_each(pos, &q->queue head) { 
struct request *pos_rq = list_entry_rq(pos); 
if (ordseq <= blk ordered req seq(pos_rq)) 
break; 


} 


list add tail(srq->queuelist, pos); 
unplug it = 0; 
break; 


185 


186 。 第 11 章 通用 块 层 和 scsi 层 


按 顺序 插入 的 情况 比较 简单 ， 调 用 电梯 队列 提供 的 插入 函数 elevator_add_req_fn 即 可 。 

重 插 比 较 复杂 ， 必 须 考虑 1/O 的 顺序 关系 。 重 插入 队列 ， 是 指 IO 虽然 返回 ， 但 是 没有 
成 功 完成 IJO， 需 要 重新 插入 电梯 队列 的 情况 。 如 果 此 时 队列 中 不 必 保 证 顺序 ， 把 IO 简单 
地 插入 块 设备 队列 头 部 即 可 。 否 则 ， 就 必须 考虑 1/O 的 位 置 。 如 果 需 要 保证 顺序 ， 说 明 有 
barrier IO 需要 处 理 ， 回 顾 前 面 分 析 的 背景 知识 ，barrier 1/O 之 前 的 1/O 必须 先 完成 ， 然 后 再 
完成 barrier UO，barrier IO 之 后 的 1O 必须 等 barrier LO 完成 之 后 再 执行 。ordseq 变量 目的 
就 是 检查 1/O 的 顺序 ， 判 断 是 barrier IO 之 前 的 JO， 还 是 之 后 的 ULO， 或 者 是 barrier IO 自 
身 。 根 据 这 个 顺序 关系 ， 逐 个 遍历 整个 队列 ， 把 O 重新 插入 到 正确 的 位 置 - 

elv_insert 函数 第 四 部 分 检查 队列 的 限制 。 

/* 如 果 请 求 达到 概 制 ， 则 unplug 队列 */ 

if (unplug it 566 blk queue plugged(q)y { 
int nrq = q->rq.count [READ] + q->rq.count [WRITE] 
- q->in_flight; 


if (nrq >= q->unplug_thresh) 
_generic_unplug_device (q); 
} 


为 了 避免 过 多 UO 请 求 在 队列 中 堆积 ， 队 列 设置 了 一 个 数值 ， 当 请 求 个 数 超过 这 个 限制 ， 
就 unplug 队列， 开始 挑选 1O 执行 。 


11.5.2 1VO 出 队列 的 过 程 分 析 

什么 条 件 下 IO 从 队列 出 来 真正 下 发 到 硬盘 ? 总 结 内 核 中 的 处 理 过 程 ， 列 出 以 下 几 个 条 件 。 

口 第 一 个 IO 启动 了 3 毫秒 的 定时 器 ， 时 间 到 了 ， 会 执行 unplug 函数 ， 开 始 下 发 1O。 

口 请 求 数目 超过 设 定 的 限制 (默认 是 4 )， 执 行 unplug 函数 ， 开 始 下 发 。 

口 带 有 sync 标志 的 WO， 立即 执行 unplug 函数 ， 开 始 下 发 。 

口 barrier /0 需要 先 清空 电梯 队列 ， 然 后 执行 unplug 函数 ， 开 始 下 发 。 

口 当 硬 盘 执 行 完毕 一 个 /JO， 也 要 unplug 队列 ， 检 查 是 否 有 IO 可 以 执行 。 

1. unplug 函数 

1/0 的 下 发 是 通过 unplug 函数 实现 的 ， 因 此 首先 分 析 这 个 函数 ， 它 的 代码 如 代码 清 
单 11-16 所 示 。 

代码 清单 11-16 __generic_unplug_device 





void _ generic unplug device (request_queue_t *q) 
{ 
if (unlikely (blk_queue_stopped(q))) 
return; 
if (!blk_remove_plug(q)) 
returns; 
q->request_fn(q); 
} 
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unplug 函数 首先 要 检查 队列 是 否 设置 了 stop 标志 ,设置 这 个 标志 将 停止 队列 ， 不 能 进行 
unplug 操作 。 其 次 清除 队列 的 plug 标志 ， 然 后 调用 队列 的 request_f 函数 。 


2. scsi_request_fn 函数 
对 于 scsi 设备 而 言 ， 这 个 函数 就 是 scsi_request_fn， 如 代码 清单 11-17 所 示 。 


代码 清单 11-17 scsi_request_fn 函数 





static void scsi_request_fn(struct request queue *q) 


ee /* 省 咯 部 分 代码 */ 
while (!blk queve plugged(q)) { 
int rtn; 
req -~ elv_next_request (q); 
/* 检查 队列 是 否 ready。 这 个 队列 是 块 设备 本 身 的 设备 队列 ， 非 上 文 的 块 设备 队列 */ 
if (!req 11 !scsi dev queue ready(q, sdev)) 
break; 
/* 设备 状态 是 否 online*/ 
if (unlikely(iscsi_device_onlinetsdev))) { 
scsi_kill_request (req, q); 
continuey 
} 





scsi_request_fn 函数 主体 是 个 循环 ， 它 要 一 直 执行 直到 队列 为 空 或 者 HBA 卡 不 能 够 再 接 
收 10 为 止 。 函 数 第 一 部 分 调用 elv_next_request 从 块 设备 队列 获得 一 个 请 求 。 然 后 检查 块 设 
备 队 列 是 否 ready 以 及 scsi 设备 状态 是 否 online。 

scsi_request_fn 函数 第 二 部 分 仍然 检查 各 种 异常 情况 ， 参 考 代 码 中 添加 的 注释 。 如 果 无 
异常 情况 ， 把 IO 请 求 从 电梯 队列 中 删除 。 


if (!(blk_queue tagged(q) &6 !blk queue_ start_tag(q, req))) 
blkdev_dequeue_request (req); 
sdev->device busyt+; 
spin_unlock (q->queue_lock); 
cmd = req->special; 
/* 检查 命令 是 否 为 空 */ 
if (unlikely (cmd == NULL)) { 
BUG(); 
} 
spin_lock {shost->host_lock); 
/*HBA 卡 的 host 队列 是 否 ready*/ 
if (lscsi_host_queue ready(q, shost, sdev)) 
goto not_ready; 
if (sdev->single_lun) { 
/* 检查 target 的 用 户 是 否 就 是 sdev 本 身 */ 
if (scsi_target(sdev)->starget_sdev_user && 
scsi_target (sdev) ->starget_sdev_user != sdev) 
goto not_ready; 
scsi target (sdev)->starget_sdev user = sdev; 
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shost->host_busy++7 
spin_unlock_irq(shost->host_lock)7 


scsi_request_fn 函数 第 三 部 分 ， 首 先 初始 化 保存 scsi 错误 返回 值 的 数据 buffer， 然 后 调用 
scsi_dispatch_cmd 将 IO 下 发 到 驱动 。 


scsi_init_cmd_errh (cmd); 
rtn = scsi_dispatch_cmd(cmd); 
spin_lock_irq(q->queue_lock); 
if(rtn) { 
/* 出错， 尝试 重新 plug 队列 */ 
if (sdev->device busy == 0) 
blk_plug_device (q); 
break; 
} 
} 
goto out; 


scsi_request_fn 函数 第 四 部 分 是 两 个 处 理 错误 分 支 。 


not_ready: 
spin_unlock_irq(shost->host_lock); 
spin lock_irq(q->queue_lock); 
blk_requeue_request (q, req); 
sdev->device busy--; 
if (sdev->device busy == 0) 

blk_plug_device(q); 

out: 
spin_unlock_irq(q->queue_lock); 
put_device (s&sdev->sdev_gendev); 
spin_lock_irq(q->queue_lock); 

} 


not_ready 分 支 说 明 设备 还 没有 准备 好 ， 因 此 把 1/O 重新 插入 电梯 的 队列 。 而 out 分 支 则 
只 减少 引用 计数 ， 不 对 IO 进行 操作 。 这 是 因为 进入 out 分 支 有 两 种 情况 ， 要 么 队列 已 经 空 ， 
JI/O 全 部 下 放 到 驱动 ， 要 么 1/O 还 没有 真正 从 电梯 队列 解除 ， 这 两 种 情况 都 不 需要 将 1/O 重新 
插入 电梯 队列 。 

3. elv_next_request 函数 

在 scsi_request_fn 函数 中 ， 获 得 一 个 IO 请 求 使 用 的 是 elv_next_request 函数 。 这 个 函数 
从 块 设备 队列 获得 一 个 WO， 如 代码 清单 11-18 所 示 。 


代码 清单 11-18 elv_next_request 函数 





struct request *elv_next_request (request_queue_t *q) 
{ 

struct request *rq; 

int rets; 


while ((rq = _elv next_request(q)) != NULL) { 
if (!(rq->flags 5 REQ STARTED)) { 
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elevator t *e = q->elevator; 
if (blk_sorted rq(rq) && e->ops->elevator activate req_fn) 
e->ops->elevator_activate req_fn(q, rq); 

rq->flags |= REQ_STARTED; 
blk add trace_rqlq, rq, BLK_TA_ISSUE); 

} 

/* 设置 结束 扁 区 */ 

if (!q->boundary_rq 11 q->boundary_rq == rq) { 
q->end_sector ~ rq_end_sector(rq); 
q->boundary_rq = NULL; 

1 


elv_next_request 函数 第 一 部 分 调用 _ elv_next_request 从 队列 中 获得 一 个 IO 请 求 。 如 果 
该 IO 未 设置 REQ_STARTED 标志 ， 说 明 设备 驱动 第 一 次 见 到 这 个 请 求 ， 这 种 情况 需要 通知 
IO 调度 算法 。 然 后 为 该 1O 设置 REQ_STARTED 标志 。 

如 果 队 列 的 boundary rq 等 于 该 TO0， 该 UO 此 时 要 离开 队列 ， 因 此 设置 队列 的 
boundary_rq 为 室 并 设置 队列 最 终 扇 区 地 址 为 该 UO 的 最 终 扇 区 地 址 。 如 果 队 列 的 boundary_rq 
为 室 ， 执 行 同样 的 设置 。 

elv_next_request 函数 第 二 部 分 调用 队列 的 prep_rq_fn 函数 来 预 处 理 UO。 根 据 预 处 理 结 
果 执行 不 同 的 处 理 。 


if ((rq->nags 5 REQ_DONTPREP) || !q->prep_rq_fn) 
break; 
ret = q->prep_rq_fn(q, rq); 
if (ret == BLKPREP OK) { 
/*ok， 返回 请 求 ， 准 备 下 发 */ 
break; 
else if (ret == BLKPREP DEFER) { 
/* 有 错 ， 保留 请 求 在 队列 */ 
rq = NULL; 
break; 
else if (ret == BLKPREP KILL) { 
/* 出 错误 了 ， 结 来 这 个 请 求 */ 
int nr_bytes = rq->hard_nr_sectors << 9; 
if (lnr_bytes) 
nr_bytes = rq->data_len; 


blkdev_dequeue request (rq); 
rq->flags |= REQ_ QUIET; 
end that_request_chunk(rq, 0, nr _bytes); 
end that_request last(rg, 0); 
else { 

如 果 结 果 正 确 ， 则 返回 该 /O， 如 果 结 果 为 BLKPREP_DEFER， 意 味 着 部 分 正确 , 1/0 放 
在 队列 前 面 ， 但 是 不 返回 该 1O， 等 待 下 次 挑选 UO 的 动作 。 第 一 部 分 设置 REQ_STARTED 
标志 将 阻止 其 他 LO 越过 该 0。 如 果 结 果 为 BLKPREP_KILL, 说 明 该 1/0 存在 严重 错误 ， 
需要 从 队列 中 删除 并 结束 该 UO。 
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真正 从 队列 获取 请 求 的 函数 是 _elv_next_request， 它 的 代码 如 代码 清单 11-19 所 示 。 
代码 清单 11-19 __elv_next_request 


static inline struct request *_ elv_next_request (request queue t *q) 
{ 
struct request *rq; 
while (1) 1 
while (!list empty(£q->queue head)) { 
rq = list_entry_rq(q->queve head.next); 
if (blk_do_ordered(q, srq)) 
return rq; 





} 
if (!q->elevator->ops->elevator_dispatch_fn(q, 0)) 


return NULL; 


} 





如 果 块 设备 队列 不 空 ，_elv_next_request 函数 直接 从 块 设备 队列 获得 一 个 IO 请 求 ， 如 
果 队 列 为 室 ， 则 调用 elevator_dispatch_fn 函数 从 电梯 队列 获得 一 个 请 求 ， 然 后 加 入 块 设备 队 
列 的 尾部 。 因 为 函数 主体 是 一 个 循环 ， 下 一 轮 循环 时 ， 就 可 以 从 块 设备 队列 获得 请 求 了 。 


4. blk_do_ordered 函数 
从 队列 获取 一 个 请 求 后 ， 要 调用 blk_do_ordered 函数 检查 IO 的 顺序 ， 它 的 功能 是 为 了 
处 理 barrier UO。 如 代码 清单 11-20 所 示 。 


代码 清单 11-20 blk_do_ordered 函数 


int blk_do_ordered(request_queue t *q, struct request **rqp) 
{ 

struct request *rq = *rqp; 

/* 判断 是 否 为 barrier I/0*/ 

int is_barrier = blk fs_request(rq) && blk_barrier_rq(rq); 





if (!q->ordseq) { 
/* 非 barrier 请 求 ， 返回 */ 
if (!is_barrier) 
return 1; 
if (q->next_ordered !- QUEUE ORDERED NONE) { 
*rqp = start_ordered(q, rq); 
return 1; 
} else { 
/* 如 果 队 列 切换 到 ORDERED_NONE， 清 I/O， 错误 标志 设置 为 功能 不 支持 */ 
blkdev_dequeue_request (rq); 
end_that_request first (rq, -EOPNOTSUPP, rq->hard_nr_sectors); 
end that_request last (rq, -EOPNOTSUPP); 
*rqp = NULL; 
return 0; 
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blk_do_ordered 函数 第 一 部 分 检查 之 前 在 队列 中 是 否 设 置 了 需要 保证 顺序 的 1/O， 如 果 
没有 且 新 挑选 的 1/0 不 是 barrier IO， 不 需要 保证 顺序 的 处 理 ， 直 接 返回 。 如 果 该 IO 是 个 
barrier IO， 调 用 start_ordered 执行 保证 顺序 的 操作 。 如 果 队 列 切 换 为 ORDERED_ NONE， 说 
明 队 列 不 支持 保证 顺序 的 功能 ， 直 接 清除 1/O 并 返回 。 

blk_do_ordered 函数 第 二 部 分 处 理 特殊 情况 ， 此 时 队列 中 已 经 存在 需要 保证 顺序 的 UO。 
如 果 队 列 设置 了 QUEUE_ORDERED_TAG 标志 ， 说 明 硬件 支持 TAG 队列 ， 硬 件 可 以 对 IO 
执行 顺序 进行 控制 ， 只 阻塞 下 一 个 barrier UO 就 可 以 ， 不 是 barrier IO 的 其 他 IO 可 以 放行 ， 
下 发 到 驱动 执行 。 

if (!blk_fs_request(rq) 55 rq != &q->pre flush_rq 55 
rq != &q->post flush_rq) 
return 1; 


if (q->ordered & QUEUE ORDERED TAG) { 
/* Ordered by tag. Blocking the next barrier is enough. */ 
if (is barrier 55 rq !™ 5q9->bar_rq) 
*rqp = NULL; 
} else { 
/* Ordered by draining. Wait for turn. */ 
WARN_ON (blk_ordered_req_seq(rq) < blk_ordered cur_seq(q)); 
if (blk_ordered req seq(rq) > blk ordered cur_seq(q)) 
*rqp = NULL; 
} 
return 1; 
} 


如 果 队 列 未 设置 QUEUE_ORDERED_TAG 标志 ， 需 调用 blk_ordered_req_seq 检查 IO 
的 顺序 关系 ,判断 IO 是 否 可 以 执行 。 如 果 IO 的 顺序 大 于 当前 队列 的 处 理 顺序 ， 说 明 IO 
应 该 在 后 面 处 理 ， 因 此 不 应 该 被 处 理 。1/O 顺序 是 barrier IO 必须 要 考虑 的 重要 方面 ， 当 IO 
没有 成 功 完成 ， 需 要 重新 插入 电梯 队列 的 时 候 ， 也 需要 考虑 IO 顺序 ， 必 须 把 UO 插入 到 正 
确 的 位 置 。 


5. start_ordered 函数 
start_ordered 函数 根据 要 求 设置 同步 cache 命令 ， 保 证 同步 cache 命令 之 前 的 IO 必须 完 
成 ， 它 的 代码 如 代码 清单 11-21 所 示 。 


代码 清单 11-21 start_ordered 函数 


static inline struct request *start ordered(request_queue t *q, 
struct request *rq) 





{ 
q->bi_size = 
q->orderr = 
q->ordered = q->next_ordered; 
/* 标记 队列 的 保 序 操作 开始 */ 
q->ordseq |= QUEUE ORDSEQ STARTED; 


07 
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blkdev_dequeue request (rq); 

q->orig bar rq = rq; 

rq = &q->bar_rq; 

rq_init(q, rq); 

rq->flags = bio_data dir(q->orig bar rq->bio); 
/* 设备 是 否 支持 FUA?*/ 

rq->flags |= q->ordered 5 QUEUE ORDERED FUA ? REQ_FUA : 07 
rq->elevator private = NULL; 

rq->rl = NULL; 

init_request_from bio(rq, q->orig bar_rq->bio); 
rq->end_io = bar end io; 





start_ordered 函数 第 一 部 分 设置 /O 请 求 的 必要 参数 。 由 于 这 是 一 个 barrier IO， 所 以 将 
1/O 保存 在 队列 的 orig_bar_rq 成 员 后 ， 使 用 了 队列 的 bar_rq 成 员 作为 真正 下 发 VO 的 数据 结 
构 ， 并 根据 原来 的 bio 结构 初始 化 bar_rq 成 员 的 参数 ， 对 于 barrier IO， 它 的 IO 完成 函数 被 
设置 为 特殊 提供 的 bar_end io 函数 。 

start_ordered 函数 第 二 部 分 设置 同步 cache 的 命令 。 


/* 是 否 需要 后 刷 ， 如 果 需 要 ， 则 增加 一 个 同步 cache 的 命令 ， 插 入 块 设备 队列 头 */ 
if (q->ordered & QUEUE_ORDERED_POSTFLUSH) 

queue_flush (q，QUEUE_ORDERED_POSTFLUSH) ; 
else 

q->ordseq |= QUEUE_ORDSEQ_POSTFLUSH; 


/*barrier I/0 插 入 队列 的 头 部 */ 
elv_insert(q, rq, ELEVATOR_INSERT_FRONT); 


/* 是 否 需 要 前 刷 ? 如 果 震 要， 增加 一 个 同步 cache 命令 ， 插 入 块 设备 队列 头 */ 
if (q->ordered 6 QUEUE_ORDERED_PREFLUSH) { 

queue_flush (q, QUEUE_ORDERED PREFLUSH); 

rq = &q->pre_flush_rq; 
} else 

q->ordseq |= QUEUE ORDSEQ_PREFLUSH; 


if ((q->ordered & QUEUE ORDERED_TAG) 11 q->in flight == 0) 
q->ordseq |= QUEUE_ ORDSEQ_DRAIN; 

else 
rq = NULL; 


return rq; 
} 


如 果 队 列 带 有 QUEUE_ORDERED_POSTFLUSH 标志 ， 这 种 情况 在 队列 头 部 插入 一 
个 同步 cache 命 令 。 然 后 插入 barrier IO 自身 ， 最 后 如 果 队 列 带 有 QUEUE_ORDERED_ 
PREFLUSH 标志 ， 说 明 要 把 之 前 下 发 的 1O 执行 完毕 ， 还 要 插入 一 个 同步 cache 命令 ， 这 
个 命令 的 目的 是 强制 之 前 的 1/0 执行 完毕 。 因 为 三 次 插入 都 是 插入 队列 的 头 部 ， 所 以 先 插 人 
POSTFLUSH 同步 cache 命令 ， 再 插入 barrier IO 自身 ， 最 后 插入 PREFLUSH 同步 cache 命 
令 。 执 行 时 ， 实 际 是 PREFLUSH 同步 cache 命令 最 先 执行 - 
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6. scsi_dispatch_cmd 函数 
从 电梯 取得 1/O 请 求 后 ， 要 初始 化 请 求 的 参数 ， 然 后 检查 队列 和 设备 是 否 准备 好 。 如 果 
一 切 正常 ， 调 用 scsi_dispatch_cmd 发 送 WO 请 求 ， 如 代码 清单 11-22 所 示 。 


代码 清单 11-22 scsi_dispatch_cmd 函数 





int scsi_dispatch_cmad(struct scsi_cmnd *cmd) 


struct Scsi Host *host = cmd->device->host; 
unsigned long flags = 0; 
unsigned long timeout; 
int rtn = 0; 
/* 检查 设备 是 否 可 用 */ 
if (unlikely (cmd->device->sdev_state == SDEV_DEL)) { 
/* 如 果 设备 不 可 用 ， 则 终结 这 个 I/O 命令 */ 
cmd->result = DID_NO_CONNECT << 16; 
atomic_inc (tcmd->device->iorequest_cnt)7 
__scsi_done (cmd); 
/* return 0 (because the command has been processed) */ 
goto out; 
上 


/* 检查 设备 是 否 阻 塞 ， 如 果 阻塞 ， 要 重新 把 命令 插入 电梯 队列 */ 

if (unlikely(cmd->device->sdev_state == SDEV_BLOCK)) { 
scsi_queue_insert (cmd, SCST_ MLQUEUE DEVICE BUSY); 
SCSI_LOG_MLOUEUE (3, printk("queuecommand : device blocked \n")); 
goto out; 


if (cmd->device->scsi level <= SCSI 2 565 
cmd->device->scsi_level != SCSI_UNKNOWN) { 
cmd->cmnd[1] = (cmd->cmnd[1] 6 Ox1f) | (cmd->device->lun << 5 & Oxe0); 
i 


/* 检查 设备 的 reset 时 钟 ， 避 免 设备 未 准备 好 的 情况 */ 
timeout ~ host->last reset + MIN_RESET_ DELAY; 
if (host->resetting 55 time before(jiffies, timeout)) { 
int ticks_remaining = timeout - jiffies; 
while (--ticks_remaining >= 0) 
mdelay (1 + 999 / HZ); 
host->resetting = 





/* 设置 该 scsi 命令 的 超时 时 间 */ 

scsi_add timer (cmd, cmd->timeout per command, scsi times out); 
scsi_log_send (cmd); 

atomic_inc(scmd->device->iorequest_cnt); 


/* 检查 命令 是 否 超过 hba 支持 的 最 大 命令 长 度 ， 超 过 结束 命令 */ 


if (CDB_SITZE(cmd) > cmd->device->host->max_cmd_ len) { 
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cmd->result = (DID_ABORT << 16); 
scsi_done (cmd); 
goto out; 

1 


spin_lock_irqsave (host->host_lock, flags); 
scsi_cmd get_serial (host, cmd); 


if (unlikely(host->shost state == SHOST DEL)) { 
cmd->result = (DID_NO_CONNECT << 16); 
scsi_done (cmd); 

} else { 

/* 调用 HBA 提供 的 命令 函数 */ 


rtn = host->hostt->queuecommand (cmd, scsi_done); 
} 
spin unlock irqrestore(host->host_lock, flags); 
if (rtn) {/* 命 令 执行 中 出 错 ， 则 删 掉 命 令 的 计时 器 ， 然 后 把 命令 再 次 插入 队列 */ 
if (scsi_delete timer(cmd)) { 
atomic_inc(kcmd->device->iodone_cnt)7 
scsi_queue_insert (cmd, 
(rtn == SCSI MLQUEUE DEVICE BUSY) ? 
rtn : SCSI_MLOUEUE_HOST_BUSY); 
} 


scsi_dispatch_cmd 函数 提供 了 很 多 注释 ， 主 要 是 处 理 很 多 设备 不 可 用 的 情况 。 如 果 设 备 
可 用 ， 则 调用 hba 卡 提供 的 queuecommand 把 scsi 命令 提交 给 硬盘 驱动 ， 同 时 提供 了 一 个 回 
调 函数 scsi_done。 

异常 处 理 有 多 种 情况 ， 如 果 设 备 不 可 用 ， 要 停止 17O， 返 回 错误 。 如 果 是 执行 VO 中 错 
误 ， 而 且 符合 重 试 条 件 ， 要 把 IO 重新 插入 电梯 队列 ， 再 次 执行 UO。 


11.5.3 I/O 返回 路 径 

scsi_dispatch_cmd 提交 scsi 命令 的 时 候 ， 要 提供 一 个 回调 函数 scsi_done。 这 个 回调 是 
在 硬盘 驱动 的 中 断 中 调用 的 。scsi 命令 从 中 断 中 返回 ， 意 味 着 这 个 命令 已 经 执行 完毕 ， 有 
可 能 是 成 功 执行 了 scsi 命令 ， 也 有 可 能 出 现 错误 。 不 管 成 功 还 是 错误 ， 内 核 都 需要 处 理 这 


两 种 情况 。 
scsi_done 是 1/O 返回 路 径 上 的 第 一 个 函数 ， 因 此 就 从 这 个 函数 开始 分 析 过 程 ， 它 的 代码 


如 代码 清单 11-23 所 示 。 
代码 清单 11-23 scsi_done 函数 





static void scsi_done(struct scsi_cmnd *cmd) 
{ 
if (lscsi_delete timer (cmd)) 
return; 
_scsi_done (cmd); 


】 
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scsi_done 函数 首先 要 停止 scsi 命令 的 计时 器 ， 然 后 调用 scsi_done。__scsi_done 函数 
也 比较 简单 ， 如 代码 清单 11-24 所 示 。 
代码 清单 11-24 __scsi_done 函数 


void _scsi donel(struct scsi_cmnd *cmd) 
{ 
struct request *rq = cmd->request; 
cmd->serial_number = 0; 
/* 将 命令 的 完成 次 数 加 1*/ 
atomic_inc (&cmd->device->iodone_cnt); 
/* 如 果 result 不 为 0， 错 误 计数 加 1*/ 
if (cmd->result) 
atomic_inc (scmd->device->ioerr cnt); 
rq->completion_data = cmd; 
blk_complete_request (rq); 
} 








中 断 返回 函数 的 参数 是 一 个 scsi 命令 ，_ scsi_done 函数 首先 要 从 scsi 命令 结构 中 获得 
当初 下 发 1/O 时 使 用 的 请 求 对 象 ， 然 后 调用 blk_complete_request 函数 来 处 理 一 个 IO 的 返 
回 过 程 。 

blk_complete_request 是 中 断 上 下 文 的 最 后 一 个 函数 ， 它 要 启动 一 个 软 中 断 继续 处 理 IO， 
如 代码 清单 11-25 所 示 。 


代码 清单 11-25 blk_complete_request 函数 





void blk_complete request (struct request *req) 
{ 

struct list head *cpu_list; 

unsigned long flags; 


BUG_ON (!req->q->softirq done_fn); 
local_irq_save (flags); 
cpu_list = §_get cpu_var(blk cpu_ done); 
/* 将 请 求 加 入 每 cpu 变量 链表 blk_cpu_done*/ 
list add tail(éreq->donelist, cpu_list); 
/* 启动 一 个 软 中 断 */ 
raise_softirq irqoff (BLOCK_SOFTIRQ); 
local_irq_restore (flags); 

} 





截至 目前 ， 代 码 一 直 在 硬盘 驱动 的 中 断 上 下 文中 执行 ， 而 中 断 上 下 文具 有 高 优先 级 ， 会 
阻塞 硬盘 自身 的 中 断 ， 因 此 blk_complete_request 函数 启动 块 设备 的 软 中 断 来 处 理 中 断 的 下 
半 部 。 将 中 断 处 理 代码 划分 为 两 部 分 ， 是 内 核 的 常见 方式 。 网 络 设备 的 中 断 处 理 代码 中 ， 同 
样 启 动 软 中 断 来 处 理 中 断 的 下 半 部 。 

为 了 传递 参数 到 软 中 断 上 下 文 ， 内 核定 义 了 一 个 CPU 变量 blk_cpu_done， 这 是 一 个 链 
表 ， 返回 1/O 的 请 求 结构 要 加 入 该 链表 。 块 设备 软 中 断 的 处 理 函 数 是 blk_done_softirq。 该 函 
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数 要 从 CPU 变量 blk_cpu_done 获得 已 经 完成 的 1/O 请求 ， 然 后 调用 队列 的 软 中 断 处 理 函 数 
softirq_done_fn 处 理 。 前 文 已 经 分 析 过 ， 这 个 软 中 断 处 理 函 数 是 scsi_softirq_done。 它 的 代码 
如 代码 清单 11-26 所 示 。 

代码 清单 11-26 scsi_softirq_done 函数 





static void scsi_softirq_done(struct request *rq) 
{ 
struct scsi_cmnd *cmd = rq->completion_data; 
unsigned long wait for = (cmd->allowed + 1) * cmd->timeout per_command; 
int disposition; 
/* 初始 化 错误 I/O 链表 */ 
INIT_LIST_HEAD(5cmd->eh_entry) 7 
/判断 IT/O 是 否 成 功 完成 */ 
disposition = scsi_decide disposition (cmd); 
if (disposition != SUCCESS && 
time_before(cmd->jiffies at alloc + wait_for, jiffies)) { 
/* 已 经 超时 了 ， 则 设置 命令 完成 ， 不 再 重复 执行 命令 */ 
disposition = SUCCESS; 
} 


scsi_log_completion (cmd, disposition); 
switch (disposition) { 
case SUCCESS: 
scsi_finish_command (cmd) ; 
break; 
case NEEDS_RETRY: 
scsi_retry_command (cmd) 
break; 
case ADD_TO_MLOUEUE: 
scsi_queue insert (cmd, SCSI MLQUEUE DEVICE BUSY); 
break; 
default: 
if (!scsi_eh_scmd_add(cmd, 0)) 
scsi_finish_command (cmd) ; 
} 
} 





软 中 断 处 理 函 数 scsi_softirq_done 根据 命令 执行 的 结果 ,分 为 四 种 情况 来 处 理 。1 ) 结 
东 命 令 ， 交 给 上 层 处 理 ， 这 种 情况 并 不 一 定 命令 成 功 完成 了 ， 如 果 命 令 超时 了 ， 也 要 结束 命 
令 ， 交 给 上 层 处 理 ; 2 ) 重 试 命令 ; 3 ) 命令 重新 插入 电梯 队列 ， 重 新 排队 ; 4 ) 由 scsi 错误 
处 理 线程 来 处 理 。 

scsi_decide_disposition 函数 值得 仔细 研究 ， 这 个 函数 总 结 了 所 有 的 scsi 错误 类 型 ， 对 每 
种 错误 类 型 给 出 了 处 理 措施 。 

如 果 IO 正常 完成 ， 调 用 scsi_finish_command 函数 返回 上 层 ， 这 个 函数 比较 简单 ， 它 最 
终 又 调用 了 命令 本 身 的 done 函数 。done 函数 是 在 初始 化 scsi 命令 时 候 调 用 sd_init_ command 
函数 设置 为 sd_rw_intr， 同 时 还 设置 了 scsi 命令 的 最 大 重 试 次 数 和 超时 时 间 值 。 
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1. sd_rw_intr 函数 
sd_rw_intr 函数 要 对 scsi 命令 的 各 种 错误 进行 处 理 ， 如 代码 清单 11-27 所 示 。 


代码 清单 11-27 sd_rw_intr 函数 





static void sd_rw intr(struct scsi_cmnd * SCpnt) 
{ 
int result = SCpnt->result; 
unsigned int xfer size = SCpnt->request_bufflen; 
unsigned int good bytes ~ result ? 0 : xfer size; 
u64 start_lba = SCpnt->request->sector; 
u64 bad_ lba; 
struct scsi_sense hdr sshdr; 
int sense_valid = 0; 
int sense deferred = 0; 
int info_valid; 


if (result) { 
/* 设置 scsi 命令 的 sense_key 和 asc 值 ，ascq 值 “/ 
sense_valid ~ scsi_command_normalize_sense(SCpnt, &sshdr); 
if (sense_valid) 
sense_deferred = scsi_sense is deferred(&sshdr); 
} 
if (driver byte(result) != DRIVER_SENSE 65 
(!sense valid || sense deferred)) 
goto out; 





第 一 部 分 ， 如 果 scsi 命令 的 返回 结果 result 不 为 0， 说 明 命令 执行 中 产生 了 错误 。scsi 协 
议定 义 了 可 能 的 错误 类 型 ， 通 过 三 个 参数 共同 说 明 错误 类 型 ， 这 三 个 参数 是 sense key、asc 
和 acsq。 参 数 的 详细 定义 读者 需要 参考 scsi 协议 文档 ， 本 书 只 对 代码 中 处 理 的 部 分 错误 进行 
解释 。 

sd_rw_intr 函数 第 二 部 分 主要 是 检查 scsi 命令 的 sense key。 


switch (sshdr.sense_key) { 


case HARDWARE ERROR: /* 硬件 错误 */ 
case MEDIUM ERROR: /* 坏 道 */ 
if (!blk_fs_request (SCpnt->request)) 
goto out; 


info_valid = scsi_get_sense_info fld(SCpnt->sense_buffer, 
SCSI_SENSE_BUFFERSIZE, 
sbad_1ba); 
if (!info valid) 
goto out; 
if (xfer_size <= SCpnt->device->sector_size) 
goto out; 
switch (SCpnt->device->sector size) { 
case 256: 
start_ lba <<= 1; 
break; 
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case 512: 
break; 

case 1024: 
start_lba >>= 1; 
break; 

case 2048: 
start_lba >>= 27 
break; 

case 4096: 
start_lba >>= 3; 
break; 

default: 
/* Print something here with limiting frequency. */ 
goto out; 
break; 


} 
good_ bytes = (bad lba - start_lba)*SCpnt->device->sector_size; 


break; 
case RECOVERED ERROR: /* 可 修复 的 错误 */ 
case NO_SENSE: /*no sense， 成 功 执行 */ 


SCpnt->result = 0; 
memset (SCpnt->sense_buffer, 0, SCSI_SENSE BUFFERSIZE); 
good_bytes = xfer_size; 
break; 
case ILLEGAL REQUEST: /* 不 合法 的 请 求 */ 
if (SCpnt->device->use_10_for_rw 55 
{SCpnt->cmnd[0] -~ READ 10 11 
SCpnt->cmnd[0] == WRITE 10)) 
SCpnt->device->use_10_for_rw = 0; 
if (SCpnt->device->use 10_for ms 65 
(Scpnt->cmnd[0] == MODE_SENSE_10 11 
SCpnt->cmnd[0] == MODE_SELECT_10)) 
Scpnt->device->use_10_for ms = 0; 
break; 
default: 
break; 
} 
out: 
scsi_io_completion(SCpnt, good_bytes); 


如 果 sense key 不 够 ， 还 需要 一 些 附加 的 信息 ， 通 过 sense_buffer 里 面 的 数据 asc 和 ascq 
表示 。sense key 主要 包括 以 下 几 个 。 

口 HARDWARE_ERROR: 硬件 错误 。 

口 MEDIUM_ERROR: 坏 道 错误 。 

口 RECOVERED_ERROR: 可 修复 的 错误 。 

ONO_SENSE: 无 sense 数据 。 

OILLEGAL REQUEST: 不 合法 的 请 求 。 


11.5 IO 的 处 理 过 程 。 


了 注意 
RECOVERED_ERROR 和 NO_SENSE 代表 命令 已 经 成 功 执行 了 ， 这 两 个 sense key 作用 


只 是 提示 用 户 。 

变量 good_bytes 的 含义 有 两 种 : 1 ) 如 果 命令 成 功 完 成 ，good_bytes 就 是 scsi 命令 设 定 
的 读 写 数值 ;2 ) 如 果 命 令 部 分 完成 (比如 由 于 坏 道 错误 只 读 了 一 部 分 数据 )，good_bytes 代 
表 完成 的 字 节 数 。 ， 

2. scsi_io_completion 函数 

good_bytes 要 作为 输入 参数 调用 scsi ii 
如 代码 清单 11-28 所 示 。 


_completion， 由 这 个 函数 继续 IO 的 返回 过 程 ， 





代码 清单 11-28 scsi_io_completion 函数 





void scsi_io_completion(struct scsi_cmnd *cmd, unsigned int good_bytes) 
{ 

int result = cmd->result; 

int this_count = cmd->request_bufflen; 

request_queue t *q = cmd->device->request queue; 

struct request *req = cmd->request; 

int clear errors = 1; 

struct scsi_sense_hdr sshdr; 

int sense_valid = 0; 

int sense deferred ~ 0; 


scsi_release_buffers(cmd); 
if (result) { 
sense_valid = scsi_command_normalize_sense(cmd, &sshdr); 
if (sense_valid) 
sense_deferred = scsi_sense is_ deferred(&sshdr); 


} 


/*scsi 命令 来 自 SG_IO， 也 就 是 说 不 是 来 自 于 文件 系统 */ 
if (blk_pc_request (req)) { /* SG_IO ioctl from block level */ 
req->errors = result; 
if (result) { 
clear_errors = 0; 
if (sense_valid && req->sense) { 
1* 
* SG_IO wants current and deferred errors 
*/ 
int len = 8 + cmd->sense_ buffer[7]; 
/* 复制 返回 的 sense buffer 内 容 */ 
if (len > SCSI_SENSE BUFFERSIZE) 
len = SCSI_SENSE BUFFERSIZE; 
memcpy (req->sense, cmd->sense_ buffer, len); 
req->sense_len = len; 
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} else 


req->data_len = cmd->resid; 
} 





scsi_io_completion 第 一 部 分 和 sd_rw_intr 函数 一 样 ， 都 根据 scsi 命令 是 否 成 功 完成 ， 将 
sense key 和 asc、ascq 值 复制 出 来 。 然 后 要 检查 IO 命令 是 否 来 自 SG_IO (SG_IO 指 scsi 全 


令 来 自 于 文件 系统 的 IO control 调用 ， 而 不 是 来 自 文件 系统 本 身 )。 这 种 情况 要 把 返回 命令 
的 sense buffer 整个 复制 出 来 。 


scsi_io_completion 第 二 部 分 调用 scsi_end_request 函数 返回 上 层 处 理 。 
if (clear errors) 
req->errors = 0; 
/* 命令 成 功 完成 返回 ， 和 否则 需要 进一步 处 理 */ 


if (scsi_end request (cmd, 1, good bytes, result == 0) == NULL) 
return; 


如 果 命 令 成 功 完成 ， 整 个 1/0 返回 过 程 就 执行 完毕 ， 如 果 命 令 没有 成 功 完成 ， 还 需要 第 
三 部 分 处 理 错误 。 


命令 是 否 成 功 完成 ， 是 由 输入 参数 good_bytes 决定 的 。 


/* good bytes = 0, or (inclusive) there were leftovers and 
* result = 0, so scsi_end_request couldn't retry. 
* 
if (sense valid 56 !sense_deferred) { 
switch (sshdr.sense key) { 
Case UNIT_ATTENTION: 
if (cmd->device->removable) { 
/* 如 果 设备 被 移 走 ， 则 结束 请 求 */ 
cmd->device->changed = 1; 


scsi_end_request (cmd, 0, this_count, 1); 
return; 


| else { 
/* 重新 插入 命令 */ 
scsi_requeue_command(q，cmd) 7 
return; 
1 
break; 
Case ILLEGAL REQUEST: 
if ((cmd->device->use 10 for rw 566 
sshdr.asc == 0x20 55 sshdr.ascq -= 0x00) 
(cmd->cmnd{0] == READ_10 11 
cmd->cmnd[0] == WRITE_10)) { 
cmd->device->use_10_for_rw 


3 


= 0; 
/* This will cause a retry with a 
* 6-byte command. 
*/ 
scsi_requeue_command(q, cmd); 
return; 
} else { 
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scsi_end request (cmd, 0, this_count, 1); 
return; 
} 
break; 
case NOT_RERADY: 
if (sshdr.asc == 0x04) 1 
Switch (sshdr.ascq) { 
case 0x01: /* becoming ready */ 
case 0x04: /* format in progress */ 
case 0x05: /* rebuild in progress */ 
case 0x06: /* recalculation in progress */ 
case 0x07; /* operation in progress */ 
case 0x08: /* Long write in progress */ 
case 0x09: /* self test in progress */ 
scsi_requeue_command(q, cmd); 
return; 
default: 
break; 





} 
if (!(req->flags 6 REQ_QUIET)) { 
scmd_printk (KERN_INFO, cmd, "Device not ready: "); 
scsi_print_sense_hdr ("", ésshdr); 
} 
scsi_end_request (cmd, 0, this_count, 1); 
return; 
case VOLUME_OVERFLON: 
if (!(req->flags 5 REQ_QUIET)) { 
scmd_ printk (KERN_INFO, cmd, "Volume overflow, CDB: "); 
scsi_print_command (cmd->cmnd) ; 
scsi_print_sense("", cmd); 
上 
/* See SSC3rXX or current. */ 
scsi_end_request (cmd, 0, this_count, 1); 
return; 
default: 
break; 
} 
} 
/* 如 果 返 回 DID_RESET， 则 重新 插入 命令 */ 
if (host_byte(result) == DID_RESET) { 
scsi_requeue_command (gq, cmd); 
return; 
} 
if (result) { 
if (!(req->flags & REQ_QUIET)) { 
} 
} 
scsi_end_request (cmd, 0, this_count, !result); 
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scsi_io_completion 第 三 部 分 根据 sense key 和 asc、ascq 的 值 决定 处 理 的 方式 。 处 理 方式 
其 实 比较 简单 ， 一 种 是 结束 请 求 ， 另 一 种 是 把 请 求 重新 插入 电梯 队列 。 

值得 注意 的 是 ， 由 于 scsi 硬件 种 类 繁杂 ， 错 误 定义 混乱 ，scsi 返回 信息 很 多 时 候 不 能 准 
确 反映 设备 的 情况 ， 这 造成 内 核 1O 处 理 的 异常 。 比 如 有 的 scsi 硬件 总 是 返回 DID_RESET， 
结果 IO 请 求 无 限 次 重 插 ，CPU 占有 率 达到 100%， 阻 塞 了 操作 系统 的 运行 。 

3. scsi_end_request 函数 

scsi_io_completion 函数 分 析 完 成 后 ， 还 需要 重点 分 析 scsi_end_request 函数 ， 观 察 IO 的 
返回 过 程 。 它 的 代码 如 代码 清单 11-29 所 示 。 

代码 清单 11-29 scsi_end_request 函数 





static struct scsi_cmnd *scsi_end_request (struct scsi_cmnd *cmd，int uptodate, 
int bytes, int requeue) 
{ 
request_queue t *q = cmd->device->request_queue; 
struct request *req ~ cmd->request; 
unsigned long flags; 


/* 根据 uptodate 和 goodbytes 结束 请 求 */ 
if (end that_request_chunk(req, uptodate, bytes)) 1 
/* 如 果 返 回 非 0， 说 明 还 有 块 未 完成 */ 


int leftover = (req->hard_nr_sectors << 9); 


if (blk_pc_request (req) ) 
leftover = req->data_len; 


/* kill remainder if no retrys */ 
if (!uptodate &5 blk noretry_request (req)) 
/* 如 果 返 回 了 fastfail， 说 明 不 需要 重 试 ， 则 直接 结束 */ 
end_that_request_chunk (req, 0, leftover); 
else { 
/* 重播 入 队列 */ 
if (requeue) { 
scsi_requeue_command (q, cmd); 
cmd = NULL; 
上 
return cmd; 
¥ 
} 
/省略 部 分 代码 */ 
scsi_next_command (cmd) ; 
return NULL; 
} 





scsi_end_request 函数 调用 end_that_request_chunk 函数 结束 IO 的 返回 过 程 。 如 果 返 回 结 
果 不 为 0， 说 明 UO 没有 成 功 完成 ， 根 据 返回 结果 有 两 种 处 理 方式 。 如 果 返 回 结果 带 有 REQ_ 
FAILFAST 标志 ， 指 示 快速 返回 ， 不 需要 重 试 ， 直 接 结束 UO， 和 否则 就 将 IO 重新 插入 电梯 队 
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列 ， 再 次 执行 。 

最 后 调用 scsi_next_command 从 队列 中 挑选 下 一 个 VO 执行 。 

参数 good_bytes 说 明了 IO 的 完成 情况 ， 是 部 分 完成 还 是 全 部 完成 。scsi_end_request 要 
根据 good_bytes 确定 如 何 结束 UO 请 求 。 

end_that_request_chunk 调用 了 __end_that_request_first 来 完成 bio 的 返回 。 回 顾 第 10 章 
的 内 容 ，bio 设置 的 回调 函数 是 mpage_end_io_read。__end_that_request_first 函数 调用 这 个 回 
调 函 数 ， 完 成 唤醒 阻塞 进程 的 任务 ,通知 IO 完成 返回 。 


11.6 本 章 小 结 

通用 块 层 、1/O 调度 算法 和 scsi 层 ， 共同 构建 了 文件 系统 之 下 的 IO 处 理 流程 。Linux 内 
核 采用 了 很 多 对 象 的 思想 来 设计 程序 ， 这 样 块 设备 的 执行 流程 和 电梯 算法 都 对 象 化 了 ， 用 户 
可 以 自行 设计 自己 的 模块 来 替换 内 核 提供 的 软件 模块 。 


第 12 章 
内 核 回 写 机 制 


回顾 第 10 章 关于 文件 写 的 部 分 ，Linux 的 写 操作 只 是 写 数据 到 page cache 中 ， 真 正 的 写 
磁盘 要 由 内 核 的 pdflush 线程 完成 的 。 


12.1 内 核 的 触发 条 件 
何 时 启动 写 磁盘 操作 由 内 核 根 据 一 些 条件 触 发 pdflush 线程 完成 。 内 核 的 触发 条 件 
如 下 。 
口 文件 系统 的 写 函 数 generic_file_buffered_write 要 调用 balance_dirty_pages_ratelimited。 
后 者 首先 检查 累加 的 dirty 页 (这 是 一 个 CPU 变量 ) 是 否 达到 一 个 限制 ， 超 过 限制 则 执 
口内 核定 时 器 触发 。 当 内 核 启 动 的 时 候 ， 要 启动 一 个 回 写 定时 器 (默认 是 5 秒 )。 当 定时 
时 间 到 达 ， 触 发 pdflush 线程 执行 写 操作 。 
口 当 系统 申请 内 存 失败 ， 或 者 文件 系统 执行 同步 (sync) 操作 ， 或 者 内 存 管理 模块 试图 释 
放 更 多 内 存 的 时 候 ， 都 可 能 触发 pdflush 线程 回 写 页 面 
TS 
国 ) 捉 示 


CPU 变量 是 内 核 的 一 种 数据 结构 ， 每 个 CPU 核 都 有 变量 的 一 个 副本 。 


12.2 内核 回 写 控制 参数 


内 核 通过 4 个 参数 控制 数据 回 写 的 算法 。 这 四 个 参数 由 proc 文件 系统 提供 ， 用户 可 以 直 
接 修改 这 些 参数 从 而 调整 内 核 回 写 的 行为 。 具 体 如 表 12-1 所 示 。 
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表 12-1 内 核 回 写 控制 参数 





































参数 位 置 内 核 位 置 功能 描述 
>, 百分比 系数 。 如 果 脏 页 占 比 超 
及 页 比例 。 | oem a 过 这 个 系数 ， 当 前 进程 开始 回 写 
dirty_ratio int vm_dirty_ratio =40 三 ， 达 各 四 二 区 为首 拓 
百分比 系数 。 如 果 脏 页 占 系统 
/proc/sys/vm/ page-writeback.c 内 存 可 分 配 内 存 超过 这 个 系数 ， 
人 dirty_background ratio | int dirty_background_ratio = 10 触发 pdflush 开始 回 写 胜 数据 。 这 
种 回 写 称 为 背景 写 
控制 pdftiush 的 运行 时 间 间 隔 。 
写 延 时 /proc/sys/vm/ page-writeback.c 单位 是 1/100 秒 。 默 认 数值 是 500， 
dirty_writeback_centisecs | int dirty_writeback_centisecs= Sx100| 也 就 是 5 秒 。 每 5 秒 控制 pdfiush 
线程 回 写 page cache 的 脏 数据 
/proclsysyvmy page-writeback.c al de pe dll 
最 大 IO 时 [Gity api oaniineod | Eat diniy_ expind contiooon 3000 | 过 这 个 时 向 的 胜 数 所;pdush 投 
Es 3 疯 后 程 要 回 写 到 磁盘 。 默 认 是 30 秒 








12.3 定时 器 触发 回 写 
系统 初始 化 的 start_kernel 函数 启动 了 一 个 定时 器 ， 这 个 定时 器 的 作用 就 是 推动 内 核 回 写 


数据 。 因 此 从 start_kemel 函数 开始 分 析 内 核 的 回 写 机 制 。 如 代码 清单 12-1 所 示 





代码 清单 12-1 start_kernel 函数 





asmlinkage void _ init start_kernel (void) 

{ 
oon/* 省 略 无 关 代码 */ 
/* rootfs populating might need page-writeback */ 
page_writeback init(); 


Si /1* 省 略 无 关 代码 */ 





12.3.1 启动 定时 器 


start_kennel 函数 调用 page_writeback_init 函数 启动 定时 器 ， 如 代码 清单 12-2 所 示 。 
代码 清单 12-2 page_writeback_init 函数 





void _ init page_writeback init (void) 
{ 
long buffer pages = 
long correction; 





r_free buffer pages(); 


total pages = nr_ free pagecache pages(); 
correction = (100 * 4 * buffer pages) / total pages; 
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if (correction < 100) { 
/* 脏 页 比例 和 背景 脏 页 比例 两 个 参数 乘 以 内 存 比例 */ 
dirty background_ratio *= correction; 
dirty background_ratio /= 100; 
vm_dirty ratio *= correction; 
vm_dirty_ratio /= 100; 


if (dirty background ratio <= 0) 
dirty background ratio = 17 
if (vm dirty_ratio <= 0) 
vm dirty ratio = 1; 
} 
mod_timer (éwb_timer, jiffies + dirty writeback_interval); 
set_ratelimit (); 
register’ cpu_notifier (ratelimit_nb); 
} 





page_writeback_init 函数 首先 获得 内 存 区 内 所 有 可 分 配 内 存 的 总 数 。 这 里 的 可 分 配 内 存 
包括 ZONE_HIGH、ZONE_NORMAL、ZONE_DMA 三 个 管理 区 。 

然后 检查 当前 系统 的 内 存 使 用 情况 。buffer pages 是 ZONE_DMA 和 ZONE NORMAL 
管理 区 的 可 分 配 内 存 。 如 果 buffer_pages 少 于 所 有 可 分 配 内 存 total_pages 的 14， 此 时 脏 页 比 
例 和 背景 脏 页 比例 两 个 参数 要 调整 ， 调 整 算法 是 比例 参数 乘 以 内 存 之 比 。 通 过 放大 比例 参数 
达到 尽快 回 写 数据 回收 内 存 的 目的 。 


(站 
~、 注意 

”此 处 涉及 内 核 内 存 管理 和 分 配 的 知识 。 简 单 说 ，32 位 操作 系统 的 内 核 将 内 存 划分 为 三 个 
管理 区 ， 分 别 是 ZONE_DMA、ZONE_NORMAL、ZONE_HIGH。 


set_ratelimit 函数 设置 内 存 页 面 限制 。 这 个 参数 的 上 限 是 4 兆 内 存 ， 按 4K 的 页 面 计算 ， 
限制 在 16 个 页 面 和 1024 个 页 面 之 间 ， 具 体 根 据 CPU 个 数 和 可 分 配 内 存 数 决定 。 如 果 页 面 
尺寸 不 是 4K， 就 要 按 4 兆 内 存 除 以 实际 页 面 尺寸 计算 真正 的 页 面 最 大 值 。 

page_writeback_init 函数 启动 定时 器 wb_timer 作为 回 写 定时 器 。 这 个 定时 器 如 代码 清 
单 12-3 所 示 。 


代码 清单 12-3 wb_timer_fn 函数 


static DEFINE_TIMER(wb_timer, wb_timer_ fn, 0, 0); 
static void wb_timer fn(unsigned long unused) 
{ 
if (pdflush_operation (wb_kupdate, 0) < 0) 
mod_timer (&wb timer, jiffies + HZ2); /* delay 1 second */ 





} 
int pdflush_operation (void (*fn) (unsigned long), unsigned long arg0) 
{ 

unsigned long flags; 

int ret = 0; 
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BUG_ON (fn == NULL); /* Hard to diagnose if it's deferred */ 


spin lock irqsave(épdflush lock, flags); 
if (list_empty(spdflush_ list)) { 
spin_unlock_irqrestore(spdftlush_lock，flags)7 
ret = -17 
} else 1 
struct pdflush_work *pdf; 
pdf = list_entry(pdflush list.next, struct pdflush work, list); 
list del init (spdf->list); 
if (list_empty (spdflush_list)) 
last_empty jifs = jiffies; 
pdf->fn = fn; 
pdf->arg0 = arg0; 
wake_up_process (pdf->who); 
spin_unlock_irqrestore(épdflush_lock, flags); 
} * 
return ret; 








定时 器 wb_timer 的 执行 函数 是 wb_timer_fn。 后 者 调用 pdflush_operation 函数 ， 从 
pdflush_list 全 局 链表 获得 一 个 pdflush_work 结构 ， 设 置 pdflush_work 结构 的 工作 函数 
wb_kupdate ， 然 后 把 pdflush_work 结构 从 链表 中 删除 ， 唤 醒 pdflush 内 核 线程 。 

pdflush 线程 是 内 核 启动 的 一 个 内 核 线程 ， 它 的 执行 函数 体 是 pdflush。 这 个 函数 的 作用 是 
执行 pdflush_work 结构 设置 的 工作 函数 (就 是 注册 的 wb_kupdate 函数 ) 。 


12.3.2 执行 回 写 操作 


wb_kupdate 是 内 核 回 写 的 控制 函数 我们 从 这 个 函数 开始 分 析 回 写 机 制 ， 如 代码 清 
单 12-4 所 示 。 


代码 清单 12-4 wb_kupdate 函数 


static void wb_kupdate (unsigned long arg) 


{ 





/省略 部 分 代码 */ 

oldest_jif = jiffies - dirty expire_interval; 

start_jif = jiffies; 

next_jif = start_ jif + dirty writeback interval; 

nr_to write = global page state(NR_FILE DIRTY) + 
global_page_state (NR_UNSTABLE NFS) + 
linodes_stat.nr_inodes - inodes_stat.nr_unused); 

while (nr_to write > 0) { 

wbc.encountered_congestion = 

/* 一 次 写 页 面 的 最 大 值 为 1024*/ 

wbc.nr_to_write = MAX_WRITEBACK PAGES; 

writeback_inodes (swbc); 

if (wbe.nr to write > 0) { 
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if (wbc.encountered_congestion) 
blk_congestion wait (WRITE, H2/10); 
else 
break; /* All the old data is written */ 
i y 
nr_to write -= MAX_WRITEBACK_PAGES - whc.nr_to_write; 
1 
/* 如 果 当 前 时 间 加 1 秒 已 超过 下 一 轮 的 定时 器 时 间 。 设 置 定时 器 为 当前 时 间 加 1 秒 */ 
if (time before(next jif, jiffies + H2)) 
next_jif = jiffies + HZ; 
/* 更 新 定时 器 */ 
if (dirty writeback interval) 
mod_timer (swb_timer, next_jif); 
} 





wb_kupdate 函数 首先 计算 三 个 时 间 。 

Dstart_jif: 当前 时 间 。 

Doldest_dif : 脏 页 面 允许 存在 的 最 长 时 间 ， 早 于 这 个 时 间 的 页 面 必 须 回 写 。 这 个 值 默 认 

是 当前 时 间 减 去 30 秒 。 

next_jif: 下 一 次 执行 回 写 的 时 间 。 默 认 是 5 秒 ， 就 是 每 5 秒 触发 一 次 wb_kupdate。 

其 次 检查 系统 内 有 多 少 可 写 的 页 面 。 如 果 大 于 0， 则 调用 writeback_inodes 执行 回 写 。 

执行 一 次 回 写 操作 后 ， 如 果 还 有 页 面 未 写 并 且 设 置 了 阻塞 标志 ， 则 启动 阻塞 处 理 。 阻 
塞 处 理 是 等 1/10 秒 ， 然 后 继续 执行 下 一 次 回 写 。 如 果 未 设置 阻塞 标志 ， 则 直接 进行 下 一 轮 
的 回 写 。 


12.3.3 检查 需要 回 写 的 页 面 
writeback_inodes 函数 用 于 扫描 系统 的 超级 块 ， 检 查 需 要 回 写 的 页 面 ， 如 代码 清单 12-5 
所 示 。 
代码 清单 12-5 writeback_inodes 函数 





writeback_inodes (struct writeback_control *wbc) 


{ 
struct super block *sb; 


might_sleep(); 
spin_lock(ssb_lock); 


restart: 
sb = sb_entry(super_ blocks.prev); 
for (; sb != sb_entry(ésuper blocks); sb = 
sb_entry(sb->s_list.prev)) { 
if (!list empty(ssb->s_dirty) 11 !list empty(ssb->s_i0)) { 


/* we're making our own get_super here */ 
sb->s_count++; 

spin_unlock (&sb_lock); 

if (down_read trylock(&sb->s umount)) { 
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if (sb->s_root) { 
spin_lock (sinode lock); 
sync_sb_inodes (sb, whc); 
spin_unlock (sinode_lock); 
} 
…/* 省 略 部 分 代码 */ 








writeback_inodes 函数 首先 遍历 系统 的 超级 块 对 象 ， 如 果 超 级 块 的 及 页 面 链表 非 空 ， 则 调 
用 sync_sb_inodes 回 写 超级 块 内 的 inode。 


12.3.4 回 写 超级 块 内 的 inode 


因为 每 个 文件 系统 有 一 个 超级 块 ， 而 文件 系统 内 所 有 的 inode 结构 都 链接 到 超级 块 对 象 
的 链表 头 ，sync_sb_inodes 函数 要 检查 超级 块 对 象 内 所 有 需要 回 写 的 inode， 如 代码 清单 12-6 
所 示 。 





代码 清单 12-6 sync_sb_inodes 函数 





static void 
sync_sb_inodes (struct super block *sb, struct writeback control *wbc) 
{ 


const unsigned long start = jiffies; /* livelock avoidance */ 
/* 将 dirty 链表 合并 到 s_io 链表 */ 
if (!wbc->for_kupdate || list_empty(&sb->s_i0)) 


list_splice_init(&sb->s_dirty, &sb->s_io); 
while (!list_empty(ssb->s_i0)) { 
struct inode *inode = list entry(sb->s_io.prev, struct inode, i_list); 
struct address_space *mapping = inode->i_mapping; 
struct backing dev info *bdi ~ mapping->backing dev_info; 
long pages_skipped; 


/* 无 回 写 能 力 的 处 理 */ 
if (!bdi_cap_writeback dirty(bdi)) { 
list move(sinode->i list, ésb->s dirty); 
if (sb == blockdev_superblock) { 
continue; 
} 
break; 


} 


/*bdi 指示 写 拥塞 。 设 置 拥 塞 标志 */ 
if (wbc->nonblocking 55 bdi write congested(bdi)) { 
wbc->encountered_congestion = 1; 
if (sb != blockdev_superblock) 
break; /* Skip a congested fs */ 
list move(&inode->i list, &sb->s dirty); 
continue; /* Skip a congested blockdev */ 
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if (wbc->bdi && bdi !- wbc->bdi) { 
if (sb != blockdev_superblock) 
break; 。 /* fs has the wrong queue */ 
list move(sinode->i list, &sb->s_ dirty); 
continues /* blockdev has wrong queue */ 
} 





sync_sb_inodes 函数 第 一 部 分 遍历 超级 块 链表 的 脏 inode 结构 ， 检 查 是 否 可 回 写 。 

根据 第 9 章 块 设备 文件 系统 的 分 析 ， 所 有 块 设备 的 超级 块 是 块 设备 文件 系统 提供 的 全 局 

变量 blockdev_superblock 。 

口 如 果 inode 不 具备 回 写 能 力 ， 且 超级 块 等 于 blockdev_superblock， 说 明 这 个 inode 是 一 
个 块 设备 文件 的 inode 结构 ， 这 种 情况 继续 遍历 块 设备 文件 系统 的 其 他 inode， 检 查 是 
否 可 写 。 

口 如 果 超 级 块 不 等 于 blockdev_superblock， 说 明 这 是 一 个 文件 系统 ， 这 种 情况 跳 过 整个 
超级 块 ， 检 查 下 一 个 超级 块 里 面 的 inode。 

口 如 果 写 拥塞， 和 上 面 的 处 理 类 似 。 

口 如 果 文件 系统 拥塞 ， 跳 过 整个 超级 块 ， 检 查 下 一 个 超级 块 。 

口 如果 块 设备 拥塞 ， 只 跳 过 该 块 设备 ， 检 查 超级 块 链表 的 下 一 个 块 设备 。 


2. 检查 时 间 参 数 

Sync_sb_inodes 函数 第 二 部 分 首先 检查 时 间 参 数 。 

口 如 果 inode 结构 置 脏 的 时 间 在 sync_sb_inodes 函数 开始 执行 的 时 间 之 后 ， 跳 出 循环 。 

口 如 果 inode 结构 置 脏 的 时 间 早 于 设 定 的 回 写 时 间 ( 回 写 时 间 默 认 是 当前 时 间 之 前 30 
秒 )， 同 样 跳出 循环 。 

口 如 果 有 另外 一 个 pdfiush 线程 也 在 回 写 队列 ， 同 样 跳出 循环 。 


/*inode 的 dirty 时 间 在 sync_sb_inodes 调用 之 后 */ 
if (time_after(inode->dirtied when, start)) 
break; 


/* Was this inode dirtied too recently? */ 
if (whec->older than this && time after (inode->dirtied when, 
*wbc->older_chan_this)) 
break; 


/* 是 否 已 经 有 另 一 个 pdflush 在 回 写 这 个 inode*/ 
if (current_is pdflush() 55 !writeback acquire (bdi)) 
break; 


BUG_ON (inode->i_state & I_FREEING); 
__iget (inode); 

Pages_skipped = wbc->pages_skipped; 
_ writeback single inode (inode, wbc); 


/+* 省 略 部 分 代码 */ 
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3. 检查 inode 状态 
如 果 检查 都 通过 ， 调 用 writeback_single_inode 检查 inode 的 状态 ， 如 代码 清单 12-7 


所 示 。 
代码 清单 12-7 writeback_single_inode 函数 





static int 
_ writeback single inode{lstruct inode *inode, struct writeback control *wbc) 
{ 

wait_queue head_t *wqh; 


if (latomic_read(sinode->i_count)) 
WARN_ON(! (inode->i_state 5 (I WILL FREE|T_FREEING))); 
else 
WARN_ON (inode->i_state 5 I WILL FREE); 


if ((wbc->sync_mode != WB_SYNC ALL) 66 (inode->i state & I_LOCK)) { 


list_move(&inode->i list, &inode->i_sb->s_dirty); 
return 0; 


if (inode->i state & I LOCK) 1 


DEFINE_WAIT_BIT(wq, sinode->i state, _I_LOCK); 
wqh = bit waitqueue(&inode->i state, _ I_LOCK); 
do { 


spin_unlock(&inode_lock); 
_ wait_on_bit(wqh, é&wq, inode wait, TASF 
spin_lock (sinode_lock); 

) while (inode->i_state 6 I_LOCK); 





UNINTERRUPTIBLE) ; 


} 
return _ sync_single_inode (inode, wbc); 





_writeback_single_inode 函数 执行 两 个 条 件 判断 。 

口 如 果 inode 状态 已 经 是 LOCK， 且 回 写 模式 不 是 WB_SYNC_ALL， 把 inode 链接 到 超 
级 块 的 s_dirty 链表 ， 然 后 退出 。 

口 如 果 回 写 模式 是 WB_SYNC_ALL， 一 直 等 待 ， 直 到 inode 解除 LOCK 状态 ， 然 后 调用 
__sync_single_inode 函数 进行 文件 的 回 写 。 


4. 文件 回 写 操作 
一 sync_single_inode 函数 如 代码 清单 12-8 所 示 。 


代码 清单 12-8 __sync_single_inode 函数 





static int 
—sync_single_inode (struct inode *inode, struct writeback control *wbc) 
{ 

unsigned dirty; 
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struct address_space *mapping = inode->i_mapping7 
struct super block *sb = inode->i_sb; 

int wait = wbc->sync_made == WB_SYNC_ALL; 

int ret; 


BUG_ON (inode->i_state & I_LOCK); 


/* Set I_LOCK, reset I_DIRTY */ 
dirty = inode->i state & I_DIRTY; 
inode->i_state |= I_LOCK; 
inode->i_state 6= ~I_DIRTY; 
spin_unlock(&inode_lock); 





/* 写 页 面 */ 
ret = do writepages (mapping, whe); 


/* Don't write the inode if only I_DIRTY PAGES was set */ 
if (dirty & (I_DIRTY SYNC | I_DIRTY DATASYNC)) { 
int err = write_inode(inode, wait); 
if (ret == 0) 
ret = err; 


上 
/* 如 果 wait 设置 ， 则 一 直 等 待 写 硬盘 完成 */ 
if (wait) { 
int err = filemap_fdatawait (mapping); 
if (ret == 0) 
ret = err; 
} 





_ sync_single_inode 函数 第 一 部 分 执行 脏 数据 和 inode 本 身 的 回 写 。 为 了 表示 inode 数据 
的 各 种 置 脏 条 件 ， 内 核定 义 了 三 个 参数 。 

口 LDIRTY_SYNC: 表示 只 是 inode 访问 时 间 发 生 了 变化 。 

OLDIRTY_DATASYNC: 表示 inode 其 他 属性 数据 发 生 了 变化 ， 比 如 文件 的 长 度 。 

OLDIRTY_PAGES: 文件 的 内 容 数据 发 生 了 变化 。 

__sync_single_inode 函数 首先 调用 do_writepages 将 所 有 置 脏 的 数据 页 面 进行 回 写 (根据 
控制 参数 wbe 设置 的 条 件 )。 

如 果 inode 设置 了 I_DIRTY_SYNC 或 者 LDIRTY_DATASYNC， 说明 不 只 是 文件 的 内 
容 , 文件 本 身 的 属性 也 发 生 了 改变 ， 因 此 调用 write_inode 函数 对 inode 本 身 进行 回 写 。 当 
write_inode 返回 时 ， 已 经 完成 了 inode 的 回 写 或 者 是 发 生 了 错误 。 

如 果 控 制 参数 wbe 设置 了 WB_SYNC_ALL， 说 明 是 紧要 数据 ， 需 要 等 所 有 的 数据 回 写 
完成 。 因 此 调用 filemap_fdatawait 等 待 数据 回 写 完成 。 

__sync_single_inode 函数 第 二 部 分 首先 检查 文件 是 否 有 数据 未 进行 回 写 。 


spin_lock(&inode_ lock); 
inode->i_state &= ~I_LOCK; 
if (!(inode->i_state & I_FREEING)) { 
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if (!(inode->i state & I_DIRTY) 68 
mapping tagged (mapping, PAGECACHE TAG DIRTY)) { 
if (wbe->for kupdate) { 

/* 让 inode 得 到 更 多 的 回 写 机 会 */ 
inode->i_state |= I_DIRTY_ PAGES; 
list move tail(sinode->i list, &sb->s_ dirty); 


} else { 
/* 修改 inode 的 置 脏 时 间 ， 让 其 他 inode 有 更 多 的 回 写 机 会 */ 
inode->i_state |= I_DIRTY PAGES; 


inode->dirtied when = jiffies; 
list move(sinode->i list, ssb->s_dirty); 
1 
} else if (inode->i_state & I_DIRTY) { 
list_move(sinode->i list, ssb->s_dirty); 
} else if (atomic read(sinode->i_count)) { 
list move(sinode->i list, sinode_ in_use); 
} else { 
list move(sinode->i list, Sinode_ unused); 


} 


} 
/* 唤 本 阻塞 的 进程 */ 
wake_up_inode (inode); 
return ret; 

} 


这 一 步 通过 调用 mapping_tagged 检查 文件 的 page cache 状态 。 

口 如 果 仍 有 置 脏 的 数据 页 面 ， 要 将 inode 状态 设置 |_DIRTY_PAGES 标志 位 。 

口 如 果 没 有 其 他 的 置 脏 的 数据 页 面 ， 但 是 inode 本 身 被 置 脏 ， 说明 有 别 的 任务 修改 了 
inode 的 属性 ， 此 时 要 将 inode 加 入 超级 块 的 脏 inode 链表 。 

口 如 果 以 上 条 件 都 不 成 立 且 inode 引用 计数 不 为 0， 说 明文 件 没有 置 脏 的 数据 页 面 ， 文 件 
属性 也 没 发 生 改 变 ， 将 inode 加 入 inode_in_use 链表 ， 如 果 引 用 计数 为 0， 则 将 inode 
加 入 inode_unused 链表 。 


12.4 平衡 写 
平衡 写 在 文件 系统 写 过 程 的 上 下 文 执行 。 第 10 章 文件 系统 读 写 分 析 已 经 观察 到 写 过 程 
调用 了 balance_dirty_pages_ratelimited 函数 。 这 个 函数 作用 是 检查 脏 页 面 是 否 到 达 限 值 ， 是 
否 进行 平衡 写 操作 。 具 体 如 代码 清单 12-9 所 示 。 
代码 清单 12-9 balance_dirty_pages_ratelimited 函数 





balance_dirty_pages_ratelimited(struct address_space *mapping) 
{ 
balance dirty pages ratelimited nr (mapping, 1); 
1 
void balance dirty pages_ratelimited nr(struct address_space *mapping, 
unsigned long nr pages dirtied) 
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static DEFINE PER CPU(unsigned long, ratelimits) = 0; 
unsigned long ratelimit; 
unsigned long *p; 


ratelimit = ratelimit pages; 
if (dirty_ exceeded) 
ratelimit = 87 
J 
* Check the rate limiting. Also, we do not want to throttle real-time 
* tasks in balance dirty pages(). Period. 
*/ 
preempt_disable(); 
p= 6 get cpu_var(ratelimits); 
*p += nr_pages_dirtied; 
if (unlikely(*p >= ratelimit)) { 
*p= 0 
preempt_enable (); 
balance_dirty_pages (mapping); 
returny 
} 
preempt_enable (); 





12.4.1 检查 直接 回 写 的 条 件 


balance_dirty_pages_ratelimited 函数 调用 了 balance_dirty_pages_ratelimited_nr 函数 。 后 
者 首先 定义 了 一 个 CPU 变量 ratelimits， 初 始 化 为 0。 每 次 写 页 面 的 时 候 ， 这 个 变量 累加 脏 页 
面 的 总 量 ， 当 脏 页 面 超过 前 面 定义 的 内 存 页 面 限制 值 ， 则 调用 balance_dirty_pages 开始 执行 
回 写 操作 。balance_dirty_pages 函数 如 代码 清单 12-10 所 示 。 


代码 清单 12-10 balance_dirty_pages 函数 


static void balance_dirty_pages(struct address_space *mapping) 
{ 











…/* 省 略 部 分 代码 */ 


for (172) 1 
struct writeback control wbc = 1 
-bdi = bdi, 
.sync_mode = WB_SYNC_NONE, 
.older_than_this = NULL, 
-nr_to_write = write_chunk, 
.range_cyclic = 1， 


1 


get_dirty_limits(sbackground thresh, &dirty thresh, mapping); 
nr_reclaimable = global page state(NR FILE DIRTY) + 
global_page_state (NR_UNSTABLE NFS); 
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if (nr_reclaimable + global page state(NR_ WRITEBACK) <= dirty thresh) 
break; 

if (!dirty exceeded) 

dirty exceeded = 








balance_dirty_pages 函数 第 一 部 分 首先 调用 get_dirty_limits 获得 设置 的 脏 页 面 回 写 数目 。 
前 面 通过 page_writeback_init 函数 已 经 设置 了 系统 的 脏 页 面 比例 。 变 量 background_thresh 和 
dirty_thresh 分 别 代表 背景 写 的 脏 页 面 数目 和 直接 回 写 的 脏 页 面 数目 。 


12.4.2 回 写 系统 脏 页 面 的 条 件 


然后 计算 系统 内 需要 回 写 的 脏 页 面 数目 总 和 。 如 果 这 些 页 面 总 数 超过 dirty_thresh 的 限 
制 ， 则 进入 直接 回 写 ， 否 则 退出 循环 ， 检 查 是 否 超过 了 background_thresh 限制 。 


if (nr_reclaimable) { 
writeback_inodes (&wbc); 
get_dirty limits (sbackground_thresh, 
Sdirty_thresh, mapping); 
nr_reclaimable ~ global page_state(NR_FILE DIRTY) + 
global_page_state (NR_UNSTABLE NFS); 
if (nr_reclaimable + 
global_page_state (NR_WRITEBACK) <= dirty_thresh) 
break; 
Pages_written + write chunk - wbc.nr_ Lo_writer 
if (pages_written >= write_chunk) 
break; /* We've done our duty */ 
} 
blk_congestion_wait (WRITE, HZ2/10); 
} 


if (nr_reclaimable + global page_state (NR_WRITEBACK) 
<= dirty_thresh && dirty_exceeded) 
dirty exceeded = 0; 
/* 如 果 pdflush 线程 已 经 在 写 当 前 队列 ， 退 出 */ 
if (writeback_in_progress(bdi)) 
return; 。 /* pdflush is already working this queue */ 
/* 如 果 是 笔记 本 模式 ， 要 等 达到 直接 写 的 标准 才 开 始 背景 写 */ 
if ((laptop_mode 66 pages_written) || 
(!1laptop mode && (nr_reclaimable > background thresh))) 
pdflush_operation (background_writeout, 0); 
1 


balance_dirty_pages 函数 第 二 部 分 调用 writeback_inodes 回 写 系 统 的 脏 页 面 。 回 写 完 
毕 ， 要 执行 两 个 检查 : 一 是 检查 脏 页 和 回 写 页 是 否 大 于 dirty_thresh 脏 页 限制 ， 二 是 检查 已 
经 回 写 的 页 面 是 否 小 于 设置 的 回 写 页 面 数 ， 如 果 两 个 条 件 都 满足 ， 则 阻塞 进程 1/10 秒 ， 然 
后 再 次 回 写 。 
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12.4.3 ”检查 计算 机 模式 
最 后 ，balance_dirty_pages 函数 要 检查 计算 机 的 模式 。 
口 笔记 本 模式 : 这 种 模式 回 写 的 标准 比较 高 ， 要 等 待 达到 标准 较 高 的 直接 写 条 件 ， 才 进 
行 背景 写 。 
口 普 通 模式 : 检查 脏 页 面 是 否 超过 背景 写 的 限制 数 background_thresh， 如 果 超过 ， 触 发 
pdflush 线程 进行 回 写 。 
writeback_inodes 前 文 已 经 分 析 过 ， 不 再 歼 述 。 


12.5 本 章 小 结 

Linux 内 核 的 回 写 机 制 提 供 了 一 种 缓 写 机 制 ， 真 实 的 写 并 不 是 直接 写 人 硬盘 ， 而 是 在 
page cache 中 缓存 ， 等 待 合适 的 时 机 才 真 正 执行 写 信 。 这 种 机 制 存在 的 前 提 是 适 配 硬盘 的 物 
理 特性 ， 在 内 核 软件 的 设计 中 ， 乃至 用 户 软件 的 设计 中 ， 考 虑 硬件 特性 并 适 配 之 ， 是 系统 设 
计 的 重要 方面 。 
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一 个 真实 文件 系统 ext2 


通过 前 面 章节 的 分 析 和 学 习 ， 本 章 分 析 一 个 真正 的 文件 系统 。 本 章 选 的 例子 是 Linux 的 
ext2。ext2 是 Linux 系统 使 用 最 广泛 的 文件 系统 ， 它 和 ext3 构成 Linux 文件 系统 的 基石 。 而 
ext3 和 ext2 的 结构 基本 相同 ， 只 是 ext3 多 了 日 志 功 能 。 本 章 不 再 分 析 代 码 ， 主 要 介绍 ext2 
的 磁盘 布局 和 超级 块 ， 以 及 inode 结构 ， 代 码 分 析 工作 留 给 读者 。 原 因 是 Linux 内 核 庞大 复 
杂 无 比 ， 任 何 书 都 不 可 能 完备 的 分 析 代码 。 通 过 本 书 内 核 基础 层 和 应 用 层 的 分 析 ， 读 者 可 以 
从 架构 层次 掌握 系统 的 框架 和 脉络 ， 在 这 个 基础 上 ， 可 以 比较 流畅 的 分 析 阅 读 内 核 代 码 。 


13.1 ext2 的 硬盘 布局 


根据 Linux 文件 系统 的 知识 ， 文 件 和 dentry 是 内 存 中 的 结构 ， 并 不 真正 存在 于 硬盘 中 。 
真正 存在 于 硬盘 的 是 超级 块 结构 和 inode 结构 。 首 先 看 ext2 的 硬盘 布局 ， 如 图 13-1 所 示 。 


一 es 
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图 13-1 ext2 硬盘 布局 


硬盘 的 第 一 个 扇 区 是 引导 区 ， 占 据 1K 字 节 ， 引 导 区 是 文件 系统 不 能 使 用 的 ， 用 来 存储 
分 区 信息 。ext2 是 通过 块 组 的 方式 来 组 织 硬盘 。 每 个 硬盘 分 区 都 由 若干 个 大 小 相同 的 块 组 组 
成 。 每 个 块 组 包括 下 列 信息 。 
口 超级 块 ( super block) : 每 个 块 组 的 起 始 位 置 都 有 一 个 超级 块 ， 这 些 超级 块 的 内 容 都 是 
相同 的 。 超 级 块 包括 文件 系统 的 信息 ， 比 如 每 个 块 组 的 块 数目 、 每 个 块 组 的 inode 数 
目 等 。 


口 块 组 描述 符 表 (GDT) : 块 组 描述 符 表 由 很 多 的 块 组 描述 符 组 成 。ext2 的 每 个 块 组 描 
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述 符 为 32 字 节 。 整 个 文件 系统 分 区 有 多 少 个 块 组， 就 有 多 少 个 块 组 描述 符 。 块 组 描 
述 符 描述 了 一 个 块 组 的 信息 ， 比 如 一 个 块 组 中 inode 位 图 的 起 始 位 置 、inode 表 的 起 
始 位 置 等 。 

口 块 位 图 (block bitmap): 每 个 比特 代表 块 组 中 哪些 块 可 用 ， 哪 些 块 已 经 被 占有 。 块 位 图 
本 身 要 占有 一 个 块 。 如 果 块 大 小 设置 为 1K 字 节 ， 则 一 个 块 组 的 大 小 为 1K x 1K x 8bit 
= 8M 字 节 。 

Qinode 位 图 (inode bitmap) : inode 位 图 也 占用 一 个 块 。 它 的 每 一 位 代表 一 个 inode 是 否 

Dinode 表 (inode table) : 每 个 文件 都 有 一 个 inode，inode 保存 了 文件 的 描述 信息 、 文 件 
的 类 型 、 文 件 的 大 小 、 文 件 的 创建 访问 时 间 等 。 一 个 inode 占 128 字 节 。 如 果 文件 系 
统 块 大 小 为 IK 字 节 ， 一 个 块 可 容纳 8 个 inode。inode 表 可 以 占用 多 个 块 。 

口 数据 块 (data block) : 保存 文件 的 内 容 。 常 规 文件 的 数据 保存 在 数据 块 中 ， 如 果 是 目录 
文件 ， 那 么 该 目录 下 所 有 的 文件 名 和 下 级 目录 名 都 保存 在 数据 块 中 。 


13.2 ext2 文件 系统 目录 树 


文件 系统 的 层次 结构 可 以 用 目录 树 来 表示 。 对 ext2 文件 系统 而 言 ， 根 目录 是 一 个 固定 的 
inode。 通 过 读 根 目录 的 内 容 ， 就 可 以 获得 根 目录 下 的 文件 的 inode 信息 、 文 件 类 型 和 文件 名 
字 。 如 果 该 文件 是 目录 文件 ， 重 复 这 个 过 程 ， 就 可 以 获得 二 级 目录 的 信息 。 

ext2 目录 文件 的 结构 如 代码 清单 13-1 所 示 。 

代码 清单 13-1 ext2_dir_entry_2 


struct ext2_dir entry 2 { 








_ le32 inode; /* Inode number */ 
__lel16 rec_len; /* Directory entry length */ 
_u8 name_len; /* Name length */ 

_u8 file_type; 

char name [EXT2_NAME_LEN]; /* File name */ 


a 





根 目录 是 一 个 固定 的 inode， 它 的 inode 号 是 2。 当 文件 系统 初始 化 的 时 候 ， 读 到 超级 块 
的 内 容 ， 就 获得 了 文件 块 的 大 小 、 每 个 块 组 的 块 数目 、 每 个 块 组 的 inode 数目 。 从 超级 块 之 
后 的 块 组 描述 符 表 ， 可 以 获得 所 有 的 块 组 信息 。 

通过 超级 块 提供 的 信息 和 块 组 描述 符 表 信息 ， 就 可 以 获得 根 目录 在 inode 表 的 位 置 ， 从 
而 读 到 根 目录 的 内 容 。 从 根 目录 的 内 容 里 面 ， 进 而 获得 根 目录 下 文件 的 inode 号 和 文件 类 型 。 

如 果 这 是 个 目录 文件 ， 那么 重复 上 面 的 过 程 ， 可 以 获得 二 级 目录 的 目录 结构 。 不 断 重复 
这 个 过 程 ， 最 终 获得 整个 文件 系统 的 目录 树 。 
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13.3 ext2 文件 内 容 管理 


ext2 的 inode 信息 可 以 存放 15 个 块 的 地 址 ， 用 户 数据 就 存放 在 这 些 块 中 。 但 是 15 个 块 
不 一 定 能 存放 全 面 的 用 户 数据 ， 那 么 可 以 采用 分 层 的 方式 存储 。 这 15 个 块 中 ,前 12 个 块 是 
直接 数据 块 ， 直 接 存 放 用 户 数据 。 而 第 13 个 块 ， 是 一 级 索引 块 ， 这 个 块 存放 的 又 是 块 的 地 
址 ， 这 些 块 地 址 指向 的 块 才 真 正 存放 用 户 数 据 。 而 第 14 个 块 ， 是 二 级 索引 块 ， 比 一 级 索引 
块 又 多 了 一 层 ， 而 第 15 个 块 ， 是 三 级 索引 块 ， 比 二 级 索引 块 又 多 了 一 层 。 通 过 这 种 方式 ， 
大 大 扩展 了 ext2 文件 系统 的 文件 存放 内 容 。 


13.4 ext2 文件 系统 读 写 


对 一 个 文件 系统 来 说 ， 最 重要 基础 的 部 分 无 非 是 打开 和 创建 文件 以 及 文件 的 读 写 。 

通过 文件 系统 的 目录 树 ， 可 以 获得 文件 所 在 目录 的 上 级 目录 。 读 上 级 目录 的 内 容 ， 就 可 
以 获得 文件 的 inode 号 和 文件 名 字 。 根 据 文件 的 inode 号 ， 可 以 获得 文件 的 inode 信息 。 也 就 
获得 了 文件 的 类 型 、 创 建 修改 时 间 、 文 件 大 小 等 信息 ， 完 成 打开 文件 的 过 程 。 

文件 的 读 写 ， 首 先 要 获得 文件 数据 内 容 的 物理 扇 区 位 置 。 在 文件 的 inode 信息 里 ， 保 存 
了 15 个 文件 块 的 地 址 。 这 15 个 文件 块 通过 分 层 方式 ， 存 储 了 文件 的 数据 内 容 。 知 道 了 文件 
数据 的 块 地 址 ， 就 可 以 获得 文件 数据 的 物理 扇 区 地 址 。 根 据 第 10 章 的 分 析 ， 可 以 真正 对 文 
件 执行 读 写 操作 。 





13.5 本 章 小 结 

本 章 可 以 作为 对 内 核 学 习 的 一 个 实战 。 读 者 应 该 结合 ext2 文件 系统 的 代码 ， 分 析 文件 系 
统 的 读 写 和 打开 的 过 程 ， 深 度 理解 一 个 广泛 使 用 的 文件 系统 。 内 核 本 身 在 不 断 更 新 ， 想 利用 
内 核 知识 解决 实际 问题 ， 必 须 具备 快速 阅读 代码 的 能 力 ， 从 代码 中 学 习 ， 从 代码 中 实践 。 
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